人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

英語(yǔ)的人工智能使用費(fèi)比其他語(yǔ)言便宜 15 倍 簡(jiǎn)體中文成本約為英語(yǔ)的兩倍

微新創(chuàng)想(idea2003.com) 7月31日消息:研究表明,對(duì)于類似 OpenAI 的服務(wù),由于計(jì)算成本的計(jì)量和計(jì)費(fèi)方式,英語(yǔ)輸入和輸出比其他語(yǔ)言要便宜得多,其中簡(jiǎn)體中文的成本約為英語(yǔ)的兩倍,西班牙語(yǔ)為英語(yǔ)的 1.5 倍,而撣語(yǔ)則要貴 15 倍

一項(xiàng)由牛津大學(xué)進(jìn)行的研究發(fā)現(xiàn),讓一個(gè)大型語(yǔ)言模型處理一句緬甸語(yǔ)句子需要 198 個(gè) tokens,而同樣的英語(yǔ)句子只需 17 個(gè) tokens。Token 代表通過(guò) API 訪問(wèn)大型語(yǔ)言模型(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)的計(jì)算成本,這意味著使用服務(wù)處理緬甸語(yǔ)句子比處理英語(yǔ)句子要貴 11 倍。

這種「標(biāo)記化」模型意味著在不理想的情況下,訪問(wèn)和訓(xùn)練非英語(yǔ)語(yǔ)言模型會(huì)更昂貴。這是因?yàn)橄裰形倪@樣的語(yǔ)言與英語(yǔ)在結(jié)構(gòu)上(無(wú)論是語(yǔ)法上還是字符數(shù)量上)有所不同,從而導(dǎo)致其標(biāo)記化的成本更高。

舉個(gè)例子,根據(jù) OpenAI 的 GPT3 tokenizer,將「your affection」這個(gè)詞組標(biāo)記化為英語(yǔ)只需兩個(gè) tokens,而在簡(jiǎn)體中文中則需要八個(gè) tokens。這是因?yàn)楹?jiǎn)體中文的文本雖然只有 4 個(gè)字符(你的感情),而英語(yǔ)文本有 14 個(gè)字符。

微軟自己在解釋其 ChatGPT 模型的 API 訪問(wèn)和使用的頁(yè)面上提供了一個(gè)很有用的工具,其中甚至包括了一個(gè)標(biāo)記化工具,您可以用來(lái)測(cè)試每個(gè)提示的標(biāo)記成本。在那里,我們可以看到在英語(yǔ)中,1 個(gè) token 約等于 4 個(gè)字符,100 個(gè) tokens 約等于 75 個(gè)英文單詞。但是這種數(shù)學(xué)規(guī)則并不能應(yīng)用于其他任何語(yǔ)言,微軟清楚地表明了這一點(diǎn)。

人工智能相關(guān)的成本方面,英語(yǔ)的成本效益無(wú)可匹敵;例如,相對(duì)于輸出而言,中文的成本是英語(yǔ)的兩倍。但這只是 AI 公司迄今為止用于訓(xùn)練模型的可用訓(xùn)練數(shù)據(jù)的反映。人工智能的爆發(fā)已經(jīng)向世界展示了高質(zhì)量緊急數(shù)據(jù)(作為生活記錄而產(chǎn)生的數(shù)據(jù))的價(jià)值。

此問(wèn)題直接關(guān)系到 AI 公司希望實(shí)現(xiàn)遞歸訓(xùn)練的愿望,即能夠用自己的輸出訓(xùn)練 AI 模型。如果實(shí)現(xiàn)了這一點(diǎn),那么未來(lái)模型仍將顯示英語(yǔ)與其他語(yǔ)言相比的成本效益,其他語(yǔ)言的復(fù)雜性和更有限的基礎(chǔ)訓(xùn)練數(shù)據(jù)導(dǎo)致了更高的標(biāo)記化速率。

為了進(jìn)一步復(fù)雜化問(wèn)題,似乎除了標(biāo)記化之外,其他衡量成本的方法最終也會(huì)遇到相同的問(wèn)題。無(wú)論是通過(guò)位數(shù)還是字符計(jì)數(shù),顯然沒(méi)有任何一種語(yǔ)言能夠超越英語(yǔ)的實(shí)際實(shí)用性——英語(yǔ)的「可壓縮性」較高,因此標(biāo)記數(shù)量較低。

這意味著問(wèn)題不在于模型的貨幣化方式;它實(shí)際上是技術(shù)和基礎(chǔ)模型在訓(xùn)練中的一個(gè)真實(shí)局限。而且不難想象,這個(gè)問(wèn)題會(huì)影響到各個(gè)版本的多語(yǔ)言模型。畢竟,它們幾乎都是以相同方式構(gòu)建的。

當(dāng)我們考慮到推出大型語(yǔ)言模型(如 ChatGPT)或生成式圖像網(wǎng)絡(luò)(如 Midjourney)的公司主要位于美國(guó)時(shí),這種成本差異已經(jīng)導(dǎo)致一些國(guó)家推出了培訓(xùn)和使用本地語(yǔ)言的大型語(yǔ)言模型的計(jì)劃。中國(guó)和印度都這樣做了,而且都聲稱這樣做是為了配合英語(yǔ)為基礎(chǔ)的 AI 網(wǎng)絡(luò)所允許的創(chuàng)新速度。而這種速度主要受到訪問(wèn)和訓(xùn)練成本的限制。

每個(gè)人都希望花盡可能少的錢獲得盡可能多的東西,這是很自然的。而這些動(dòng)態(tài)直接影響根據(jù)基礎(chǔ)語(yǔ)言進(jìn)行 LLM 培訓(xùn)和部署的成本。人工智能業(yè)務(wù)是如此復(fù)雜,其影響如此深遠(yuǎn),我們必須非常小心地采取每一個(gè)小步驟。

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開。 必填項(xiàng)已用 * 標(biāo)注