人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

英語的人工智能使用費(fèi)比其他語言便宜 15 倍 簡體中文成本約為英語的兩倍

微新創(chuàng)想(idea2003.com) 7月31日消息:研究表明,對于類似 OpenAI 的服務(wù),由于計(jì)算成本的計(jì)量和計(jì)費(fèi)方式,英語輸入和輸出比其他語言要便宜得多,其中簡體中文的成本約為英語的兩倍,西班牙語為英語的 1.5 倍,而撣語則要貴 15 倍

一項(xiàng)由牛津大學(xué)進(jìn)行的研究發(fā)現(xiàn),讓一個(gè)大型語言模型處理一句緬甸語句子需要 198 個(gè) tokens,而同樣的英語句子只需 17 個(gè) tokens。Token 代表通過 API 訪問大型語言模型(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)的計(jì)算成本,這意味著使用服務(wù)處理緬甸語句子比處理英語句子要貴 11 倍。

這種「標(biāo)記化」模型意味著在不理想的情況下,訪問和訓(xùn)練非英語語言模型會更昂貴。這是因?yàn)橄裰形倪@樣的語言與英語在結(jié)構(gòu)上(無論是語法上還是字符數(shù)量上)有所不同,從而導(dǎo)致其標(biāo)記化的成本更高。

舉個(gè)例子,根據(jù) OpenAI 的 GPT3 tokenizer,將「your affection」這個(gè)詞組標(biāo)記化為英語只需兩個(gè) tokens,而在簡體中文中則需要八個(gè) tokens。這是因?yàn)楹嗴w中文的文本雖然只有 4 個(gè)字符(你的感情),而英語文本有 14 個(gè)字符。

微軟自己在解釋其 ChatGPT 模型的 API 訪問和使用的頁面上提供了一個(gè)很有用的工具,其中甚至包括了一個(gè)標(biāo)記化工具,您可以用來測試每個(gè)提示的標(biāo)記成本。在那里,我們可以看到在英語中,1 個(gè) token 約等于 4 個(gè)字符,100 個(gè) tokens 約等于 75 個(gè)英文單詞。但是這種數(shù)學(xué)規(guī)則并不能應(yīng)用于其他任何語言,微軟清楚地表明了這一點(diǎn)。

人工智能相關(guān)的成本方面,英語的成本效益無可匹敵;例如,相對于輸出而言,中文的成本是英語的兩倍。但這只是 AI 公司迄今為止用于訓(xùn)練模型的可用訓(xùn)練數(shù)據(jù)的反映。人工智能的爆發(fā)已經(jīng)向世界展示了高質(zhì)量緊急數(shù)據(jù)(作為生活記錄而產(chǎn)生的數(shù)據(jù))的價(jià)值。

此問題直接關(guān)系到 AI 公司希望實(shí)現(xiàn)遞歸訓(xùn)練的愿望,即能夠用自己的輸出訓(xùn)練 AI 模型。如果實(shí)現(xiàn)了這一點(diǎn),那么未來模型仍將顯示英語與其他語言相比的成本效益,其他語言的復(fù)雜性和更有限的基礎(chǔ)訓(xùn)練數(shù)據(jù)導(dǎo)致了更高的標(biāo)記化速率。

為了進(jìn)一步復(fù)雜化問題,似乎除了標(biāo)記化之外,其他衡量成本的方法最終也會遇到相同的問題。無論是通過位數(shù)還是字符計(jì)數(shù),顯然沒有任何一種語言能夠超越英語的實(shí)際實(shí)用性——英語的「可壓縮性」較高,因此標(biāo)記數(shù)量較低。

這意味著問題不在于模型的貨幣化方式;它實(shí)際上是技術(shù)和基礎(chǔ)模型在訓(xùn)練中的一個(gè)真實(shí)局限。而且不難想象,這個(gè)問題會影響到各個(gè)版本的多語言模型。畢竟,它們幾乎都是以相同方式構(gòu)建的。

當(dāng)我們考慮到推出大型語言模型(如 ChatGPT)或生成式圖像網(wǎng)絡(luò)(如 Midjourney)的公司主要位于美國時(shí),這種成本差異已經(jīng)導(dǎo)致一些國家推出了培訓(xùn)和使用本地語言的大型語言模型的計(jì)劃。中國和印度都這樣做了,而且都聲稱這樣做是為了配合英語為基礎(chǔ)的 AI 網(wǎng)絡(luò)所允許的創(chuàng)新速度。而這種速度主要受到訪問和訓(xùn)練成本的限制。

每個(gè)人都希望花盡可能少的錢獲得盡可能多的東西,這是很自然的。而這些動態(tài)直接影響根據(jù)基礎(chǔ)語言進(jìn)行 LLM 培訓(xùn)和部署的成本。人工智能業(yè)務(wù)是如此復(fù)雜,其影響如此深遠(yuǎn),我們必須非常小心地采取每一個(gè)小步驟。

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會被公開。 必填項(xiàng)已用 * 標(biāo)注