人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

數據標注“流水線”里,藏著大模型的秘密

編者按:本文來自微信公眾號 財經十一人(ID:lcaijingEleven),作者:劉以秦,編輯:謝麗容,微新創想經授權轉載。

海南人阿黃學的是設計專業,之前做了5年設計工作,今年公司倒了,現在他給AI大模型做數據標注。

他用過ChatGPT和文心一言,也知道外面有很多人在高喊“大模型前景廣闊”,“所有行業都值得用大模型再做一遍”。但他從沒認為自己的工作是在“參與未來”。他做的工作是給AI大模型做數據標注,通俗地說,是給大模型找錯、修改、打分。坐在工位上,阿黃熟練又機械地點著鼠標,“又是同樣的錯誤”,他心想,“大模型挺傻的。”

中國上一波AI浪潮始于2017年,到今天,主要服務于自動駕駛和人臉識別的數據標注產業已經很成熟。給上一代AI模型做標注工作,主要以“打點”和“畫框”為主,就是讓機器學習什么是“人臉”,什么是“障礙物”。現在的大模型的標注更像是在做閱讀理解,讓AIGC(生成式AI)學習應該給出什么樣的內容。

阿黃每天的工作就是坐在電腦前,等待系統隨機給他一組數據,包含1個問題和5個回答。他需要先標注出這個問題屬于什么類型,隨后給5個回答分別打分并排序。分數區間為0-5分,如果打分低于3分,還要標注出具體原因,例如“答非所問(0分)”、“嚴重跑題(1分)”、“存在邏輯問題,存在事實性錯誤,比例較小給2分”等。

新技術帶動了中國大模型熱潮,沉寂了幾年的數據標注行業迎來新機會,一位業內人士告訴《財經十一人》,最近數據標注公司的訂單量明顯多了,基本都是大模型的需求。

大模型通過海量數據和巨大算力的共同作用,讓機器變得更像人。注入海量數據后,大模型會掌握一定的邏輯思維和通識,也就是成為一個“預訓練模型”,但僅僅是“注入”還遠遠不夠。

預訓練模型就像是一個未經馴化的“野獸”,因為數據基本是無差別抓取,其中會有互聯網上常見的誘導性內容、錯誤信息、陰謀論、攻擊性內容等。必須通過不斷調優來讓這頭“野獸”更加合乎常理,被社會接受。

標注師的工作就是“調優”,給機器生成的內容挑錯、修改、打分。相當于給機器一個具體反饋,低分是“懲罰”,高分就是“獎勵”,理想狀態下,機器會逐漸往高分的方向進化。

數據就是養料,所謂的“理想狀態”,指的是機器能持續獲得足夠多且有質量的數據,這樣才能“健康成長”。但現在的大模型數據標注還不夠“理想”。

此前,業內將中國公司的大模型距離GPT4還有明顯差距的其中一個主要原因,歸結于算力資源不夠。

也有不少業內人士提到數據質量較低,但數據質量為何較低,從數據標注的“流水線”上,能找到一部分原因。

1、本科生組成的標注流水線

阿黃是在招聘網站上看到某標注基地在招人,入職前他上網搜了一下數據標注的相關的信息,看到的都是畫框型標注。當年,數據標注被稱為AI領域的流水線工廠,通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區。為了控制成本,標注公司的老板們會在縣城里租一塊場地,擺上電腦,有訂單了就在附近招人兼職來做,沒單子就解散休息。簡單來說,這個工種有點類似馬路邊上的臨時裝修工。

大模型時代的數據標注工作顯然不一樣了。阿黃的辦公環境相比過去好了不少,窗明幾凈的寫字樓,有自己的工位,很寬敞,上下班要打卡,看起來和互聯網公司里的白領們差不多。事實上也是如此,阿黃的同事基本是本科畢業學歷。

不過,他依然覺得自己是個流水線工人。

數據標注行業流傳的一句話是“有多少智能,就有多少人工”,這句話放到今天依然適用。有媒體報道,OpenAI的前期數據標注員大多在肯尼亞,主要工作是幫大模型過濾掉“有害”內容,標注員月薪在200到300美元之間。

阿黃和同事們的月薪約5000元,“按完成的題目數量計費”。他說,入行的門檻不算高,且工作節奏不快,“基本上6、7點以后大家都下班了。”收入在當地不算低,海南省統計局披露的2022年海南省城鎮私營單位就業人員年平均工資為65519元(相當于月薪5460元),“以前做設計的時候沒日沒夜的加班,也就這個水平。”

阿黃對這份工作基本滿意。唯一不太滿意的主要原因是“無聊”,且看不清未來的方向。他最大的焦慮是,學歷、專業對于這份工作沒有特別的加成作用。未來也很難有相關的職業發展路徑,他們并不能從這份工作中積累到相關知識,熟悉更多技術。

阿黃最喜歡標注的是文案撰寫類的問答,比如“寫一段宣傳稿”,因為AI生成的答案質量都不錯,不需要標注員更多介入,完成得很輕松。稍微難一些的是涉及到事實核查的問答,例如問題是“如何建立稅收風險管理體系”,根據工作流程,他只需要去百度上搜索稅收相關的內容。當然了,不是所有的內容都能用,例如貼吧、社區上個人用戶發布的內容就不行,“要找更權威一點的”。但他無法保證準確。

還有些一看就是用戶問來為難大模型的問題,例如“扭蛋和雞蛋哪個更好吃”?那些“一本正經胡說八道”的回答基本都出現在這里。阿黃認為這是機器現在還“挺傻”的表現,即使他們反復標注,機器依然在犯同樣的錯誤。

和過去數據標注的不同之處在于,“畫框”是有標準答案的,但是很多大模型相關的內容沒有標準答案,有些問題本身就會有多個正確答案。不過阿黃也不需要去思考到底哪種回答更好,如果遇到有爭議的內容,他只需要提交給工作群里的“老師”,以“老師”的回答為準即可。“老師”可以理解為行業經驗更豐富或是更理解客戶需求的標注師。

標注完成后,還會有審核抽查,阿黃說,一次大約抽查2-3道題,審核員認為標注得不對,就會打回來重新標。審核員主要來自數據需求方,也就是科技公司,標注師多是外包服務商員工。

這條數據標注流水線目前主要由標注師和審核員組成。完成數據標注后,科技公司會對大模型做測試,看看哪些方面還有不足,再針對性的做下一輪標注和調試。未來,這條“流水線”上還會針對大模型出現更多細分崗位,例如模型評估師(指導大模型調優方向)、指令工程師(研究與大模型交互更高效的方式)、視頻音頻標注師、專業領域標注師等。

2、需要更多高質量數據

阿黃供職的機構是目前國內在通用大模型領域跑在最前面的百度智能云,百度的文心一言今年3月16日發布,他今年4月入職,入職后培訓一周上崗。

他還記得一開始數據量很少,會出現無題可做的情況,后來工作越來越忙。數據標注行業波動性很強,AI產業繁榮時,標注需求隨之上漲;AI產業稍有回落,數據標注會第一個受影響。

阿黃和同事們基本不用加班,如果數據量充足,他一天能做約80道題。他所在的百度智能云海口數據標注基地宣稱是國內第一個大模型數據標注基地,該基地目前共有約200名標注師。也就是說,這個基地一天能標注約16000道題。

一位AI大模型行業人士告訴《財經十一人》,目前這個量和理想中的預設相比,“太小了”。現在的大模型動輒千億參數量,如果沒有與之匹配的標注工作量,就很難對預訓練大模型有明顯的優化。

百度智能云數據標注基地業務產品負責人胡馳告訴《財經十一人》,百度海口數據基地目前主要承擔的是基礎的數據標注工作,也就是訓練機器的通識能力。如果涉及到更專業的領域,例如寫代碼、醫療、金融等,就要與專業團隊合作。比如,政務大模型中,用戶通常會問很多“專精”的問題,例如“社保斷繳5年怎么辦?”這需要標注師熟悉大量的政府文件,并能從中找到準確答案。

大模型時代已經逐步演變成機器輔助人類標注,例如有些回答篇幅特別長,標注師看完就要花很長時間,系統可以提前標注出關鍵內容,幫助標注師提升效率,但并不能提升專業度。

在全球大模型領域跑在最前面的OpenAI在數據標注上也有一套方法——找了多家數據公司來共同完成數據標注,其中包括目前估值已經超過70億美元的創業公司Scale AI。OpenAI自己也組建了一個幾十名哲學博士(PhDs)團隊來做數據質檢。標注好的數據訓練模型,反復多次直至模型可用。OpenAI成立8年,花費10億美元用于模型訓練。

OpenAI的數據標注方式是先做出預訓練模型,再用強化學習加上人工反饋來調優,也就是RLHF(Reinforcement Learning from Human Feedback)。

在RLHF的過程中,人工的專業性越高,能夠給出的反饋也越高效。一些科技公司認為數據質量是OpenAI的競爭力之一,此后包括谷歌在內的不少美國科技公司都在效仿這一模式。

一位知名AI公司創始人告訴《財經十一人》,現在中文大模型的數據來源是兩類,一類是開源的數據集;一類是通過爬蟲爬來的中文互聯網數據。中文大模型表現不夠好的主要原因之一就是互聯網數據質量,“比如,專業人士在查找資料的時候一般不會用百度。”

大模型領域的新趨勢是垂直大模型。過去也有垂直領域的數據標注,最典型的是醫療數據。AI公司們很難找到足夠多的醫療專業人士來做標注,提供更高報酬只是基本,一些AI公司還會提供科研資源、論文發表等方面的協助,才有可能搞定一個專家。

OpenAI還在繼續重金投入數據相關工作。現在國內一線的大模型產品也都在優化階段,今年8月31日,12款大模型完成備案,已經上線的部分產品依然存在或多或少的問題。

相比有錢也不一定能買到的算力來說,數據更多時候是“一分耕耘一分收獲”,中國數據體量龐大,且市場上已經有大量數據服務商和數據工具。

一位已經上線的大模型產品負責人告訴《財經十一人》,“科技公司不是無所不能的,精力有限且投入就要看到回報”。投入在參數量、算力,或是各類測評結果、論文、合作伙伴、商業化方面,能夠給大模型直接帶來回報,包括收入、融資、影響力等。“在數據方面長期投入會有兩個問題,一是回報周期長;二是先行者很有可能會吃虧,例如我花了很多錢和時間,做了很多數據,別人可能花很少的錢就可以直接打包買走。”

3、“人工”會越來越少

目前數據標注市場主要有兩類參與者,一類是第三方標注公司,另一類是頭部科技公司自建數據標注團隊。此外還有一些中間商,對接公司需求和標注團隊。

百度是大型科技公司中對數據標注投入相對較多的一家。百度智能云提供的數據顯示,該公司目前已經與各地政府合作共建了10多個數據標注基地,累計提供超過1.1萬個就業崗位,間接帶動5萬人就業。京東、字節跳動等公司也有自己的數據標注基地。

目前數據標注依然以人工為主,機器輔助。短期內數據標注師會是一個不錯的職業選擇。不過,長期來看,和上一輪AI標注人一樣,這個職業恐怕會逐步消亡。

2022年下半年,OpenAI在拉丁美洲和東歐等地區招募了約1000名遠程外包員工,其中約60%普通員工負責基礎的數據標注,另外40%是程序員,他們共同讓ChatGPT學會編程。

如果大模型的編程能力達到一定水平,程序員不僅不需要再做標注了,可能連程序員也不用做了。同理,大模型越來越聰明,自學習能力越來越強之后,那么第一個被取代的恐怕就是那些給大模型做標注的人。

從過往的經驗看,數據標注員本身就不是一份長期穩定的工作。2007年,人工智能專家李飛飛帶隊做了ImageNet的數據標注工作,花了兩年半時間標注了1500萬張圖片并將其開源,直接為后來的圖像識別類公司打下了基礎,不需要再招募大量人工做基礎標注,只需要再做專業上的優化。

大模型發展的一個重要方向就是自動訓練。AI技術已經可以輔助人工做標注,未來AI的滲透會越來越深,大模型本身就適合于數據標注場景。目前AI公司商湯宣稱已經在智能駕駛領域應用大模型自動標注技術;今年4月,海康威視在其財報會議上也提到將AI技術用于自動化標注,并稱標注數量能提升10倍。谷歌、微軟、特斯拉等科技公司也都發布了自動標注系統相關產品。

百度智能云自研的標注系統中也已經有不少技術輔助功能,除了在文本中標出重點之外,還會自動給內容分類,把專業的內容匹配給對應的專業人員。

胡馳說,現在機器還無法完全做到自己訓練自己,“機器都還只是半吊子水平,怎么讓自己進步呢?”他認為,至少在目前,最終的決定權還是要在人工手里,機器標注依然存在局限性。

人工智能的發展基于三要素:數據、算法和算力。如果用火箭來比喻,算法是引擎,算力是加速器,數據是燃料。想要讓大模型發揮更大作用,充足的“燃料”必不可少。

經歷了大半年大模型熱潮后,投資人和從業者們都已經相對冷靜下來,隨著一些通用大模型的開源力度加大,再從頭做一個類似的產品已經很難吸引資本和市場,“不少做大模型的創業者很難回答出他們的壁壘究竟是什么”,一位關注AI的投資人告訴《財經十一人》,“如果沒有明確的技術壁壘,就要用商業化能力來證明自己,要做好商業化,建立數據能力是第一步。”

本文為專欄作者授權微新創想發表,版權歸原作者所有。文章系作者個人觀點,不代表微新創想立場,轉載請聯系原作者。如有任何疑問,請聯系http://www.i0562.net/。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注