數(shù)據(jù)標注“流水線”里,藏著大模型的秘密
編者按:本文來自微信公眾號 財經(jīng)十一人(ID:lcaijingEleven),作者:劉以秦,編輯:謝麗容,微新創(chuàng)想經(jīng)授權(quán)轉(zhuǎn)載。
海南人阿黃學(xué)的是設(shè)計專業(yè),之前做了5年設(shè)計工作,今年公司倒了,現(xiàn)在他給AI大模型做數(shù)據(jù)標注。
他用過ChatGPT和文心一言,也知道外面有很多人在高喊“大模型前景廣闊”,“所有行業(yè)都值得用大模型再做一遍”。但他從沒認為自己的工作是在“參與未來”。他做的工作是給AI大模型做數(shù)據(jù)標注,通俗地說,是給大模型找錯、修改、打分。坐在工位上,阿黃熟練又機械地點著鼠標,“又是同樣的錯誤”,他心想,“大模型挺傻的。”
中國上一波AI浪潮始于2017年,到今天,主要服務(wù)于自動駕駛和人臉識別的數(shù)據(jù)標注產(chǎn)業(yè)已經(jīng)很成熟。給上一代AI模型做標注工作,主要以“打點”和“畫框”為主,就是讓機器學(xué)習(xí)什么是“人臉”,什么是“障礙物”。現(xiàn)在的大模型的標注更像是在做閱讀理解,讓AIGC(生成式AI)學(xué)習(xí)應(yīng)該給出什么樣的內(nèi)容。
阿黃每天的工作就是坐在電腦前,等待系統(tǒng)隨機給他一組數(shù)據(jù),包含1個問題和5個回答。他需要先標注出這個問題屬于什么類型,隨后給5個回答分別打分并排序。分數(shù)區(qū)間為0-5分,如果打分低于3分,還要標注出具體原因,例如“答非所問(0分)”、“嚴重跑題(1分)”、“存在邏輯問題,存在事實性錯誤,比例較小給2分”等。
新技術(shù)帶動了中國大模型熱潮,沉寂了幾年的數(shù)據(jù)標注行業(yè)迎來新機會,一位業(yè)內(nèi)人士告訴《財經(jīng)十一人》,最近數(shù)據(jù)標注公司的訂單量明顯多了,基本都是大模型的需求。
大模型通過海量數(shù)據(jù)和巨大算力的共同作用,讓機器變得更像人。注入海量數(shù)據(jù)后,大模型會掌握一定的邏輯思維和通識,也就是成為一個“預(yù)訓(xùn)練模型”,但僅僅是“注入”還遠遠不夠。
預(yù)訓(xùn)練模型就像是一個未經(jīng)馴化的“野獸”,因為數(shù)據(jù)基本是無差別抓取,其中會有互聯(lián)網(wǎng)上常見的誘導(dǎo)性內(nèi)容、錯誤信息、陰謀論、攻擊性內(nèi)容等。必須通過不斷調(diào)優(yōu)來讓這頭“野獸”更加合乎常理,被社會接受。
標注師的工作就是“調(diào)優(yōu)”,給機器生成的內(nèi)容挑錯、修改、打分。相當(dāng)于給機器一個具體反饋,低分是“懲罰”,高分就是“獎勵”,理想狀態(tài)下,機器會逐漸往高分的方向進化。
數(shù)據(jù)就是養(yǎng)料,所謂的“理想狀態(tài)”,指的是機器能持續(xù)獲得足夠多且有質(zhì)量的數(shù)據(jù),這樣才能“健康成長”。但現(xiàn)在的大模型數(shù)據(jù)標注還不夠“理想”。
此前,業(yè)內(nèi)將中國公司的大模型距離GPT4還有明顯差距的其中一個主要原因,歸結(jié)于算力資源不夠。
也有不少業(yè)內(nèi)人士提到數(shù)據(jù)質(zhì)量較低,但數(shù)據(jù)質(zhì)量為何較低,從數(shù)據(jù)標注的“流水線”上,能找到一部分原因。
1、本科生組成的標注流水線
阿黃是在招聘網(wǎng)站上看到某標注基地在招人,入職前他上網(wǎng)搜了一下數(shù)據(jù)標注的相關(guān)的信息,看到的都是畫框型標注。當(dāng)年,數(shù)據(jù)標注被稱為AI領(lǐng)域的流水線工廠,通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區(qū)。為了控制成本,標注公司的老板們會在縣城里租一塊場地,擺上電腦,有訂單了就在附近招人兼職來做,沒單子就解散休息。簡單來說,這個工種有點類似馬路邊上的臨時裝修工。
大模型時代的數(shù)據(jù)標注工作顯然不一樣了。阿黃的辦公環(huán)境相比過去好了不少,窗明幾凈的寫字樓,有自己的工位,很寬敞,上下班要打卡,看起來和互聯(lián)網(wǎng)公司里的白領(lǐng)們差不多。事實上也是如此,阿黃的同事基本是本科畢業(yè)學(xué)歷。
不過,他依然覺得自己是個流水線工人。
數(shù)據(jù)標注行業(yè)流傳的一句話是“有多少智能,就有多少人工”,這句話放到今天依然適用。有媒體報道,OpenAI的前期數(shù)據(jù)標注員大多在肯尼亞,主要工作是幫大模型過濾掉“有害”內(nèi)容,標注員月薪在200到300美元之間。
阿黃和同事們的月薪約5000元,“按完成的題目數(shù)量計費”。他說,入行的門檻不算高,且工作節(jié)奏不快,“基本上6、7點以后大家都下班了。”收入在當(dāng)?shù)夭凰愕停D鲜〗y(tǒng)計局披露的2022年海南省城鎮(zhèn)私營單位就業(yè)人員年平均工資為65519元(相當(dāng)于月薪5460元),“以前做設(shè)計的時候沒日沒夜的加班,也就這個水平。”
阿黃對這份工作基本滿意。唯一不太滿意的主要原因是“無聊”,且看不清未來的方向。他最大的焦慮是,學(xué)歷、專業(yè)對于這份工作沒有特別的加成作用。未來也很難有相關(guān)的職業(yè)發(fā)展路徑,他們并不能從這份工作中積累到相關(guān)知識,熟悉更多技術(shù)。
阿黃最喜歡標注的是文案撰寫類的問答,比如“寫一段宣傳稿”,因為AI生成的答案質(zhì)量都不錯,不需要標注員更多介入,完成得很輕松。稍微難一些的是涉及到事實核查的問答,例如問題是“如何建立稅收風(fēng)險管理體系”,根據(jù)工作流程,他只需要去百度上搜索稅收相關(guān)的內(nèi)容。當(dāng)然了,不是所有的內(nèi)容都能用,例如貼吧、社區(qū)上個人用戶發(fā)布的內(nèi)容就不行,“要找更權(quán)威一點的”。但他無法保證準確。
還有些一看就是用戶問來為難大模型的問題,例如“扭蛋和雞蛋哪個更好吃”?那些“一本正經(jīng)胡說八道”的回答基本都出現(xiàn)在這里。阿黃認為這是機器現(xiàn)在還“挺傻”的表現(xiàn),即使他們反復(fù)標注,機器依然在犯同樣的錯誤。
和過去數(shù)據(jù)標注的不同之處在于,“畫框”是有標準答案的,但是很多大模型相關(guān)的內(nèi)容沒有標準答案,有些問題本身就會有多個正確答案。不過阿黃也不需要去思考到底哪種回答更好,如果遇到有爭議的內(nèi)容,他只需要提交給工作群里的“老師”,以“老師”的回答為準即可。“老師”可以理解為行業(yè)經(jīng)驗更豐富或是更理解客戶需求的標注師。
標注完成后,還會有審核抽查,阿黃說,一次大約抽查2-3道題,審核員認為標注得不對,就會打回來重新標。審核員主要來自數(shù)據(jù)需求方,也就是科技公司,標注師多是外包服務(wù)商員工。
這條數(shù)據(jù)標注流水線目前主要由標注師和審核員組成。完成數(shù)據(jù)標注后,科技公司會對大模型做測試,看看哪些方面還有不足,再針對性的做下一輪標注和調(diào)試。未來,這條“流水線”上還會針對大模型出現(xiàn)更多細分崗位,例如模型評估師(指導(dǎo)大模型調(diào)優(yōu)方向)、指令工程師(研究與大模型交互更高效的方式)、視頻音頻標注師、專業(yè)領(lǐng)域標注師等。
2、需要更多高質(zhì)量數(shù)據(jù)
阿黃供職的機構(gòu)是目前國內(nèi)在通用大模型領(lǐng)域跑在最前面的百度智能云,百度的文心一言今年3月16日發(fā)布,他今年4月入職,入職后培訓(xùn)一周上崗。
他還記得一開始數(shù)據(jù)量很少,會出現(xiàn)無題可做的情況,后來工作越來越忙。數(shù)據(jù)標注行業(yè)波動性很強,AI產(chǎn)業(yè)繁榮時,標注需求隨之上漲;AI產(chǎn)業(yè)稍有回落,數(shù)據(jù)標注會第一個受影響。
阿黃和同事們基本不用加班,如果數(shù)據(jù)量充足,他一天能做約80道題。他所在的百度智能云海口數(shù)據(jù)標注基地宣稱是國內(nèi)第一個大模型數(shù)據(jù)標注基地,該基地目前共有約200名標注師。也就是說,這個基地一天能標注約16000道題。
一位AI大模型行業(yè)人士告訴《財經(jīng)十一人》,目前這個量和理想中的預(yù)設(shè)相比,“太小了”。現(xiàn)在的大模型動輒千億參數(shù)量,如果沒有與之匹配的標注工作量,就很難對預(yù)訓(xùn)練大模型有明顯的優(yōu)化。
百度智能云數(shù)據(jù)標注基地業(yè)務(wù)產(chǎn)品負責(zé)人胡馳告訴《財經(jīng)十一人》,百度海口數(shù)據(jù)基地目前主要承擔(dān)的是基礎(chǔ)的數(shù)據(jù)標注工作,也就是訓(xùn)練機器的通識能力。如果涉及到更專業(yè)的領(lǐng)域,例如寫代碼、醫(yī)療、金融等,就要與專業(yè)團隊合作。比如,政務(wù)大模型中,用戶通常會問很多“專精”的問題,例如“社保斷繳5年怎么辦?”這需要標注師熟悉大量的政府文件,并能從中找到準確答案。
大模型時代已經(jīng)逐步演變成機器輔助人類標注,例如有些回答篇幅特別長,標注師看完就要花很長時間,系統(tǒng)可以提前標注出關(guān)鍵內(nèi)容,幫助標注師提升效率,但并不能提升專業(yè)度。
在全球大模型領(lǐng)域跑在最前面的OpenAI在數(shù)據(jù)標注上也有一套方法——找了多家數(shù)據(jù)公司來共同完成數(shù)據(jù)標注,其中包括目前估值已經(jīng)超過70億美元的創(chuàng)業(yè)公司Scale AI。OpenAI自己也組建了一個幾十名哲學(xué)博士(PhDs)團隊來做數(shù)據(jù)質(zhì)檢。標注好的數(shù)據(jù)訓(xùn)練模型,反復(fù)多次直至模型可用。OpenAI成立8年,花費10億美元用于模型訓(xùn)練。
OpenAI的數(shù)據(jù)標注方式是先做出預(yù)訓(xùn)練模型,再用強化學(xué)習(xí)加上人工反饋來調(diào)優(yōu),也就是RLHF(Reinforcement Learning from Human Feedback)。
在RLHF的過程中,人工的專業(yè)性越高,能夠給出的反饋也越高效。一些科技公司認為數(shù)據(jù)質(zhì)量是OpenAI的競爭力之一,此后包括谷歌在內(nèi)的不少美國科技公司都在效仿這一模式。
一位知名AI公司創(chuàng)始人告訴《財經(jīng)十一人》,現(xiàn)在中文大模型的數(shù)據(jù)來源是兩類,一類是開源的數(shù)據(jù)集;一類是通過爬蟲爬來的中文互聯(lián)網(wǎng)數(shù)據(jù)。中文大模型表現(xiàn)不夠好的主要原因之一就是互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量,“比如,專業(yè)人士在查找資料的時候一般不會用百度。”
大模型領(lǐng)域的新趨勢是垂直大模型。過去也有垂直領(lǐng)域的數(shù)據(jù)標注,最典型的是醫(yī)療數(shù)據(jù)。AI公司們很難找到足夠多的醫(yī)療專業(yè)人士來做標注,提供更高報酬只是基本,一些AI公司還會提供科研資源、論文發(fā)表等方面的協(xié)助,才有可能搞定一個專家。
OpenAI還在繼續(xù)重金投入數(shù)據(jù)相關(guān)工作。現(xiàn)在國內(nèi)一線的大模型產(chǎn)品也都在優(yōu)化階段,今年8月31日,12款大模型完成備案,已經(jīng)上線的部分產(chǎn)品依然存在或多或少的問題。
相比有錢也不一定能買到的算力來說,數(shù)據(jù)更多時候是“一分耕耘一分收獲”,中國數(shù)據(jù)體量龐大,且市場上已經(jīng)有大量數(shù)據(jù)服務(wù)商和數(shù)據(jù)工具。
一位已經(jīng)上線的大模型產(chǎn)品負責(zé)人告訴《財經(jīng)十一人》,“科技公司不是無所不能的,精力有限且投入就要看到回報”。投入在參數(shù)量、算力,或是各類測評結(jié)果、論文、合作伙伴、商業(yè)化方面,能夠給大模型直接帶來回報,包括收入、融資、影響力等。“在數(shù)據(jù)方面長期投入會有兩個問題,一是回報周期長;二是先行者很有可能會吃虧,例如我花了很多錢和時間,做了很多數(shù)據(jù),別人可能花很少的錢就可以直接打包買走。”
3、“人工”會越來越少
目前數(shù)據(jù)標注市場主要有兩類參與者,一類是第三方標注公司,另一類是頭部科技公司自建數(shù)據(jù)標注團隊。此外還有一些中間商,對接公司需求和標注團隊。
百度是大型科技公司中對數(shù)據(jù)標注投入相對較多的一家。百度智能云提供的數(shù)據(jù)顯示,該公司目前已經(jīng)與各地政府合作共建了10多個數(shù)據(jù)標注基地,累計提供超過1.1萬個就業(yè)崗位,間接帶動5萬人就業(yè)。京東、字節(jié)跳動等公司也有自己的數(shù)據(jù)標注基地。
目前數(shù)據(jù)標注依然以人工為主,機器輔助。短期內(nèi)數(shù)據(jù)標注師會是一個不錯的職業(yè)選擇。不過,長期來看,和上一輪AI標注人一樣,這個職業(yè)恐怕會逐步消亡。
2022年下半年,OpenAI在拉丁美洲和東歐等地區(qū)招募了約1000名遠程外包員工,其中約60%普通員工負責(zé)基礎(chǔ)的數(shù)據(jù)標注,另外40%是程序員,他們共同讓ChatGPT學(xué)會編程。
如果大模型的編程能力達到一定水平,程序員不僅不需要再做標注了,可能連程序員也不用做了。同理,大模型越來越聰明,自學(xué)習(xí)能力越來越強之后,那么第一個被取代的恐怕就是那些給大模型做標注的人。
從過往的經(jīng)驗看,數(shù)據(jù)標注員本身就不是一份長期穩(wěn)定的工作。2007年,人工智能專家李飛飛帶隊做了ImageNet的數(shù)據(jù)標注工作,花了兩年半時間標注了1500萬張圖片并將其開源,直接為后來的圖像識別類公司打下了基礎(chǔ),不需要再招募大量人工做基礎(chǔ)標注,只需要再做專業(yè)上的優(yōu)化。
大模型發(fā)展的一個重要方向就是自動訓(xùn)練。AI技術(shù)已經(jīng)可以輔助人工做標注,未來AI的滲透會越來越深,大模型本身就適合于數(shù)據(jù)標注場景。目前AI公司商湯宣稱已經(jīng)在智能駕駛領(lǐng)域應(yīng)用大模型自動標注技術(shù);今年4月,海康威視在其財報會議上也提到將AI技術(shù)用于自動化標注,并稱標注數(shù)量能提升10倍。谷歌、微軟、特斯拉等科技公司也都發(fā)布了自動標注系統(tǒng)相關(guān)產(chǎn)品。
百度智能云自研的標注系統(tǒng)中也已經(jīng)有不少技術(shù)輔助功能,除了在文本中標出重點之外,還會自動給內(nèi)容分類,把專業(yè)的內(nèi)容匹配給對應(yīng)的專業(yè)人員。
胡馳說,現(xiàn)在機器還無法完全做到自己訓(xùn)練自己,“機器都還只是半吊子水平,怎么讓自己進步呢?”他認為,至少在目前,最終的決定權(quán)還是要在人工手里,機器標注依然存在局限性。
人工智能的發(fā)展基于三要素:數(shù)據(jù)、算法和算力。如果用火箭來比喻,算法是引擎,算力是加速器,數(shù)據(jù)是燃料。想要讓大模型發(fā)揮更大作用,充足的“燃料”必不可少。
經(jīng)歷了大半年大模型熱潮后,投資人和從業(yè)者們都已經(jīng)相對冷靜下來,隨著一些通用大模型的開源力度加大,再從頭做一個類似的產(chǎn)品已經(jīng)很難吸引資本和市場,“不少做大模型的創(chuàng)業(yè)者很難回答出他們的壁壘究竟是什么”,一位關(guān)注AI的投資人告訴《財經(jīng)十一人》,“如果沒有明確的技術(shù)壁壘,就要用商業(yè)化能力來證明自己,要做好商業(yè)化,建立數(shù)據(jù)能力是第一步。”
本文為專欄作者授權(quán)微新創(chuàng)想發(fā)表,版權(quán)歸原作者所有。文章系作者個人觀點,不代表微新創(chuàng)想立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系http://www.i0562.net/。