英語(yǔ)的人工智能使用費(fèi)比其他語(yǔ)言便宜 15 倍簡(jiǎn)體中文成本約為英語(yǔ)的兩倍

由微新創(chuàng)想 · 2023年 7月 31日

微新創(chuàng)想(idea2003.com) 7月31日消息:研究表明，對(duì)于類似 OpenAI 的服務(wù)，由于計(jì)算成本的計(jì)量和計(jì)費(fèi)方式，英語(yǔ)輸入和輸出比其他語(yǔ)言要便宜得多，其中簡(jiǎn)體中文的成本約為英語(yǔ)的兩倍，西班牙語(yǔ)為英語(yǔ)的 1.5 倍，而撣語(yǔ)則要貴 15 倍。

一項(xiàng)由牛津大學(xué)進(jìn)行的研究發(fā)現(xiàn)，讓一個(gè)大型語(yǔ)言模型處理一句緬甸語(yǔ)句子需要 198 個(gè) tokens，而同樣的英語(yǔ)句子只需 17 個(gè) tokens。Token 代表通過(guò) API 訪問(wèn)大型語(yǔ)言模型（如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2）的計(jì)算成本，這意味著使用服務(wù)處理緬甸語(yǔ)句子比處理英語(yǔ)句子要貴 11 倍。

這種「標(biāo)記化」模型意味著在不理想的情況下，訪問(wèn)和訓(xùn)練非英語(yǔ)語(yǔ)言模型會(huì)更昂貴。這是因?yàn)橄裰形倪@樣的語(yǔ)言與英語(yǔ)在結(jié)構(gòu)上（無(wú)論是語(yǔ)法上還是字符數(shù)量上）有所不同，從而導(dǎo)致其標(biāo)記化的成本更高。

舉個(gè)例子，根據(jù) OpenAI 的 GPT3 tokenizer，將「your affection」這個(gè)詞組標(biāo)記化為英語(yǔ)只需兩個(gè) tokens，而在簡(jiǎn)體中文中則需要八個(gè) tokens。這是因?yàn)楹?jiǎn)體中文的文本雖然只有 4 個(gè)字符（你的感情），而英語(yǔ)文本有 14 個(gè)字符。

微軟自己在解釋其 ChatGPT 模型的 API 訪問(wèn)和使用的頁(yè)面上提供了一個(gè)很有用的工具，其中甚至包括了一個(gè)標(biāo)記化工具，您可以用來(lái)測(cè)試每個(gè)提示的標(biāo)記成本。在那里，我們可以看到在英語(yǔ)中，1 個(gè) token 約等于 4 個(gè)字符，100 個(gè) tokens 約等于 75 個(gè)英文單詞。但是這種數(shù)學(xué)規(guī)則并不能應(yīng)用于其他任何語(yǔ)言，微軟清楚地表明了這一點(diǎn)。

在人工智能相關(guān)的成本方面，英語(yǔ)的成本效益無(wú)可匹敵；例如，相對(duì)于輸出而言，中文的成本是英語(yǔ)的兩倍。但這只是 AI 公司迄今為止用于訓(xùn)練模型的可用訓(xùn)練數(shù)據(jù)的反映。人工智能的爆發(fā)已經(jīng)向世界展示了高質(zhì)量緊急數(shù)據(jù)（作為生活記錄而產(chǎn)生的數(shù)據(jù)）的價(jià)值。

此問(wèn)題直接關(guān)系到 AI 公司希望實(shí)現(xiàn)遞歸訓(xùn)練的愿望，即能夠用自己的輸出訓(xùn)練 AI 模型。如果實(shí)現(xiàn)了這一點(diǎn)，那么未來(lái)模型仍將顯示英語(yǔ)與其他語(yǔ)言相比的成本效益，其他語(yǔ)言的復(fù)雜性和更有限的基礎(chǔ)訓(xùn)練數(shù)據(jù)導(dǎo)致了更高的標(biāo)記化速率。

為了進(jìn)一步復(fù)雜化問(wèn)題，似乎除了標(biāo)記化之外，其他衡量成本的方法最終也會(huì)遇到相同的問(wèn)題。無(wú)論是通過(guò)位數(shù)還是字符計(jì)數(shù)，顯然沒(méi)有任何一種語(yǔ)言能夠超越英語(yǔ)的實(shí)際實(shí)用性——英語(yǔ)的「可壓縮性」較高，因此標(biāo)記數(shù)量較低。

這意味著問(wèn)題不在于模型的貨幣化方式；它實(shí)際上是技術(shù)和基礎(chǔ)模型在訓(xùn)練中的一個(gè)真實(shí)局限。而且不難想象，這個(gè)問(wèn)題會(huì)影響到各個(gè)版本的多語(yǔ)言模型。畢竟，它們幾乎都是以相同方式構(gòu)建的。

當(dāng)我們考慮到推出大型語(yǔ)言模型（如 ChatGPT）或生成式圖像網(wǎng)絡(luò)（如 Midjourney）的公司主要位于美國(guó)時(shí)，這種成本差異已經(jīng)導(dǎo)致一些國(guó)家推出了培訓(xùn)和使用本地語(yǔ)言的大型語(yǔ)言模型的計(jì)劃。中國(guó)和印度都這樣做了，而且都聲稱這樣做是為了配合英語(yǔ)為基礎(chǔ)的 AI 網(wǎng)絡(luò)所允許的創(chuàng)新速度。而這種速度主要受到訪問(wèn)和訓(xùn)練成本的限制。

每個(gè)人都希望花盡可能少的錢獲得盡可能多的東西，這是很自然的。而這些動(dòng)態(tài)直接影響根據(jù)基礎(chǔ)語(yǔ)言進(jìn)行 LLM 培訓(xùn)和部署的成本。人工智能業(yè)務(wù)是如此復(fù)雜，其影響如此深遠(yuǎn)，我們必須非常小心地采取每一個(gè)小步驟。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

英語(yǔ)的人工智能使用費(fèi)比其他語(yǔ)言便宜 15 倍簡(jiǎn)體中文成本約為英語(yǔ)的兩倍

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

英語(yǔ)的人工智能使用費(fèi)比其他語(yǔ)言便宜 15 倍 簡(jiǎn)體中文成本約為英語(yǔ)的兩倍

您可能還喜歡...

李彥宏：國(guó)際競(jìng)爭(zhēng)戰(zhàn)略關(guān)鍵點(diǎn)不是有多少個(gè)大模型，而是有多少AI原生應(yīng)用

頂級(jí)企業(yè)家/投資人的忠告：警惕一見鐘情，收起自尊心

摩根士丹利：微軟最有機(jī)會(huì)從人工智能的增長(zhǎng)中受益 市值有望超過(guò) 3 萬(wàn)億美元

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

英語(yǔ)的人工智能使用費(fèi)比其他語(yǔ)言便宜 15 倍簡(jiǎn)體中文成本約為英語(yǔ)的兩倍

摩根士丹利：微軟最有機(jī)會(huì)從人工智能的增長(zhǎng)中受益市值有望超過(guò) 3 萬(wàn)億美元