首页知识正文

AI大模子的语言不同过错等：英语最重价，此外语言要贵良多

华清令羽网知识 2024-11-16 06:04:50

7 月 31 日新闻，言不英语言贵用户所运用的同过语言对于大型语言模子（LLM）的用度有很大的影响，可能组成英语运用者以及此外语言运用者之间的最重家养智能边界。最近的外语一项钻研展现，由于 OpenAI 等效率所接管的良多的效率器老本掂量以及计费的方式，英语输入以及输入的大模的语用度要比其余语言低良多，其中简体中文的言不英语言贵用度约莫是英语的两倍，西班牙语是同过英语的 1.5 倍，而缅甸的最重掸语则是英语的 15 倍。

IT之家留意到，外语推特用户 Dylan Patel（@dlan522p）分享了一张照片，良多揭示了牛津大学妨碍的大模的语一项钻研，该钻研发现，言不英语言贵让一个 LLM 处置一句缅甸语句子需要 198 个词元（tokens），同过而同样的句子用英语写惟独要 17 个词元。词元代表了经由 API（如 OpenAI 的 ChatGPT 或者 Anthropic 的 Claude 2）碰头 LLM 所需的合计力老本，这象征着缅甸语句子运用这种效率的老本比英语句子逾越 11 倍。

词元化模子（即家养智能公司将用户输入转换为合计老本的方式）象征着，除了英语之外的其余语言运用以及磨炼模子要贵良多。这是由于像中文这样的语言有着差距、更重大的妄想（不论是从语法仍是字符数目上），导致它们需要更高的词元化率。好比，凭证 OpenAI 的 GPT3 分词器，“你的爱意（your affection）”的词元，在英语中惟独要两个词元，但在简体中文中需要八个词元。尽管简体中文文本惟独 4 个字符（你的爱意），而英文有 14 个字符。

【源头：IT之家】返回搜狐，魔难更多

责任编纂：

华清令羽网

AI大模子的语言不同过错等：英语最重价，此外语言要贵良多

NBA | 库里空砍34分勇士再负雷霆榜眼霍姆格伦成勇士梦魇3岁男童被拐1050天，人群中一眼认出父亲，跑上去紧紧抱住不放手

湖人场均净胜20.2分，所向披靡6-0晋级决赛！冠军相呼之欲出！

NBA | 库里空砍34分勇士再负雷霆 榜眼霍姆格伦成勇士梦魇3岁男童被拐1050天，人群中一眼认出父亲，跑上去紧紧抱住不放手

湖人场均净胜20.2分，所向披靡6-0晋级决赛！冠军相呼之欲出！

友情链接

NBA | 库里空砍34分勇士再负雷霆榜眼霍姆格伦成勇士梦魇3岁男童被拐1050天，人群中一眼认出父亲，跑上去紧紧抱住不放手