英文訓練AI大模型比中文更便宜,可為什么會這樣?
聲明:本文來自微信公眾號“三易生活”(ID:IT-3eLife),作者:三易菌,授權微新創想轉載發布。
如今國內市場的“百模大戰”正如火如荼,無論是BAT這樣的傳統豪強,還是美團、字節跳動這樣的新興巨頭,乃至科大訊飛等傳統AI廠商都已入局。但提到AI大模型,似乎大家還是認為ChatGPT、Bing Chat、Bard等海外廠商的相關產品往往更加好用。
事實上,這并非錯覺。近期牛津大學進行的一項研究就顯示,用戶所使用的語言對于大型語言模型(LLM)的訓練成本有著密切的聯系。
根據這一研究結果顯示,按照OpenAI采用的服務器成本衡量和計費方式,讓一個LLM處理一句緬甸撣語的句子需要198個詞元(tokens),但同樣的句子用英語寫則只需17個詞元。據統計,簡體中文的訓練費用大約是英語的兩倍,西班牙語是英語的1.5倍,而緬甸的撣語則是英語的15倍。詞元通常是指語料中文字存在的最小單位,但它的具體指代則是多變的,既可以是字、也可以是分詞結果的詞。
由于AI業界目前會使用詞元來代表通過OpenAI或其他廠商API訪問大模型所需的計算成本,所以也就意味著牛津大學的這項研究表明,英語才是目前訓練大模型最便宜的語言,其他語言的成本則要大得多。
那么為什么會造成這一現象呢?用中文本身相比于英文更加復雜來解釋顯然并不科學,畢竟現代語言學是歐洲創建起來的,甚至現代漢語的語法分析原理也脫胎于西方的語法分析原理。
漢藏語系的語法結構與印歐語系相去甚遠,參照印歐的屈折型語法來看以漢語為代表的孤立型語法,當然會覺得復雜。然而,詞元(tokens)是以OpenA視角里中的訓練成本來定義的,不是以字符來劃分。而且,英文單詞間是存在空格的,對英文文本處理時可以通過空格來切分單詞。然而中文詞之間不存在天然地空格,并且中文詞是由多個字構成的,所以對于中文文本處理之前首先要進行分詞。
真正導致用英文訓練AI大模型成本更低的原因,是OpenAI等廠商的分詞算法與英文以外其他語言的語義理解技術不到位有關。以OpenAI為例,作為一家美國公司,其團隊在訓練大模型時必然會選擇以英語語料為起點,標注人工的投入顯然也是英語系最方便,畢竟這會直接影響到大模型訓練的強度和產出,也是為什么他們選擇的人工標注團隊在肯尼亞,而后者作為英聯邦國家,以英語為官方語言、且教育水平較高。
AI理解不同語言不是通過翻譯,而是直接學習相關語言的文本。那么AI大模型使用不同語言的能力差別又從何而來呢?答案是不同語言語料的豐富程度。此前百度的“文心一言”在內測過程中出現文生圖不符實際的情況,就曾有主流觀點認為,這是由于中文自然語言處理領域缺乏高質量中文語料所導致的結果。
而語料則是AI大模型的基礎,生成式AI的原理大概可以總結為,通過大量的語料庫進行訓練,再從各種類型的反饋中進行流暢的學習,并根據需要對反饋進行整理,以建立相應的模型,從而使得AI能夠對人類的問題做出相應的回答和決策。AI大模型之所以比以往的AI產品表現得更“聰明”,單純是因為語料規模更大,比如OpenAI的GPT-3就擁有1750億的參數量。
“力大磚飛”其實是當下大模型的底層邏輯,在這種情況下,語料基本就決定了它們的上限。語料肯定是越多越好,但如今的事實,卻是英文才是目前互聯網世界中使用人群規模最大、使用頻率最高的語言。在去年6月,W3Techs又一次發布的全球互聯網網頁統計報告中就顯示,英語仍一騎絕塵,占比高達六成(63.6%)以上,俄語為第二名(7%),中文則僅有1.3%、排名第八。
當然,W3Techs的統計只包含了網站,這也是為什么占全球網民五分之一的中文互聯網中,能夠拿得出手的網站僅占全球網站的1.3%。畢竟由于國內發達的移動互聯網生態,App才是主體,大量信息已經聚集在了各式各樣的App中,并且這些信息也難很通過爬蟲獲取,所以也導致其很難進行準確的統計。
這樣的狀態自然也導致了漢語語料庫的匱乏,因為AI行業的慣例是使用互聯網公開數據,而App里的數據則是屬于運營方的,違規抓取App內數據是妥妥的違法行為。而國內互聯網大廠將信息牢牢控制在自家App里,進而也導致了公開的中文語料不增反減。
不同于海外市場Reddit、Twitter這類愿意賣數據的平臺,將無邊界擴張思維銘刻在腦海里的國內互聯網巨頭,幾乎每一家都在貪大求全,而敝帚自珍更是成為了各家共同的選擇。既然互聯網上的公開信息是以英文為主,即使國內的AI大模型訓練往往也是從英文為起點,所以文心一言會出現“英翻中”的現象也就不足為奇了。
歸根結底,AI大模型使用不同語言的訓練成本,其實和該語言構筑的互聯網生態繁榮程度呈現正相關。例如丹麥語、荷蘭語等小語種使用者在互聯網上留下的內容過于匱乏,就導致訓練AI大模型使用它們來輸出內容不光成本更高,而且效果也更差。但更加不妙的是,由于馬太效應的影響,英文在AI領域的強勢地位還或將會持續增強。
因此國內市場的AI大模型想要更好用,獲得足夠、且高質量的語料庫是關鍵。互聯互通這個已經被提出多時的概念真正被貫徹的那一刻,或許才是中文AI大模型比肩ChatGPT們的時候。