Meta發(fā)布AI基準(zhǔn)測(cè)試工具FACET 用于評(píng)估 AI 模型的“公平性”
要點(diǎn):
Meta發(fā)布了名為FACET的數(shù)據(jù)集,用于探測(cè)計(jì)算機(jī)視覺模型對(duì)某些“類別”人群的偏見。
FACET包含32000張圖片,50000人的圖像,標(biāo)注了職業(yè)和活動(dòng)“類別”,以及人口統(tǒng)計(jì)和身體特征。
FACET可用于測(cè)試模型在不同人口屬性上的分類、檢測(cè)、分割和定位任務(wù)的公平性。
微新創(chuàng)想(idea2003.com) 9月1日 消息:Meta今天發(fā)布了一個(gè)新的AI基準(zhǔn)測(cè)試,名為FACET,旨在評(píng)估在照片和視頻中對(duì)人和物體進(jìn)行分類和檢測(cè)的AI模型的“公平性”。
FACET由32,000張包含50,000個(gè)人標(biāo)簽的圖像組成,這些標(biāo)簽由人類注釋者標(biāo)注。除了與職業(yè)和活動(dòng)相關(guān)的類別,如“籃球運(yùn)動(dòng)員”、“DJ”和“醫(yī)生”,還包括人口統(tǒng)計(jì)和身體屬性,使Meta能夠?qū)︶槍?duì)這些類別的偏見進(jìn)行“深度”評(píng)估。
Meta在一篇與TechCrunch共享的博客文章中寫道:“通過發(fā)布FACET,我們的目標(biāo)是讓研究人員和從業(yè)者能夠進(jìn)行類似的基準(zhǔn)測(cè)試,以更好地理解他們自己的模型中存在的偏見,并監(jiān)控所采取的緩解措施對(duì)這些偏見的影響。” “我們鼓勵(lì)研究人員使用FACET來評(píng)估其他視覺和多模態(tài)任務(wù)的公平性。”
注:圖片由midjourney生成
當(dāng)然,探測(cè)計(jì)算機(jī)視覺算法偏見的基準(zhǔn)測(cè)試并不是什么新鮮事。Meta自己幾年前就發(fā)布過一個(gè)基準(zhǔn)測(cè)試,用于揭示計(jì)算機(jī)視覺和音頻機(jī)器學(xué)習(xí)模型中的年齡、性別和膚色歧視。許多研究已經(jīng)對(duì)計(jì)算機(jī)視覺模型進(jìn)行了評(píng)估,以確定它們是否存在針對(duì)某些人群的偏見。
此外,事實(shí)上,Meta 在負(fù)責(zé)任的人工智能方面并沒有最好的記錄。去年年底,Meta不得不撤下一款A(yù)I演示,因?yàn)樗帉懥朔N族主義和不準(zhǔn)確的科學(xué)文獻(xiàn)。有報(bào)道稱,該公司的AI倫理團(tuán)隊(duì)基本沒有作用,而它發(fā)布的反AI偏見工具被形容為“完全不足夠”。同時(shí),學(xué)術(shù)界指責(zé)Meta加劇了其廣告服務(wù)算法中的社會(huì)經(jīng)濟(jì)不平等,并在其自動(dòng)審查系統(tǒng)中表現(xiàn)出對(duì)黑人用戶的偏見。
但Meta聲稱FACET比之前所有的計(jì)算機(jī)視覺偏見基準(zhǔn)測(cè)試都要深入——能夠回答這樣的問題:“當(dāng)被感知的性別表現(xiàn)具有更多傳統(tǒng)男性特征時(shí),模型是否在將人們分類為滑板運(yùn)動(dòng)員方面做得更好?”以及“當(dāng)頭發(fā)卷曲程度與直發(fā)相比時(shí),任何偏見都會(huì)放大嗎?”
為了創(chuàng)建FACET,Meta讓上述注釋者為32,000張圖像中的每張人物圖像標(biāo)注人口統(tǒng)計(jì)屬性(例如圖片中人物的感知性別表現(xiàn)和年齡組)、額外的身體屬性(例如膚色、光線、紋身、頭飾和眼鏡、發(fā)型和面部毛發(fā)等)以及類別。他們將這些標(biāo)簽與其他來自Segment Anything1Billion的關(guān)于人、頭發(fā)和服裝的標(biāo)簽結(jié)合。Segment Anything1Billion是Meta設(shè)計(jì)的用于訓(xùn)練計(jì)算機(jī)視覺模型從圖像中“分割”或隔離物體和動(dòng)物的數(shù)據(jù)集。
Meta告訴我,F(xiàn)ACET圖像的來源是Segment Anything1Billion,而這些圖像則從“照片提供商”處購(gòu)買。但目前還不清楚圖片中所描繪的人是否知道他們的圖片將被用于這個(gè)目的。此外——至少在博客文章中——還不清楚Meta是如何招募注釋者團(tuán)隊(duì)的,以及他們得到了多少工資。
從歷史上看,甚至在今天,許多為AI培訓(xùn)和基準(zhǔn)測(cè)試標(biāo)注數(shù)據(jù)集的注釋者來自發(fā)展中國(guó)家,收入遠(yuǎn)低于美國(guó)的最低工資標(biāo)準(zhǔn)。就在本周,《華盛頓郵報(bào)》報(bào)道,規(guī)模最大、融資最充足的注釋公司之一Scale AI向工人支付的工資極低,經(jīng)常拖欠或扣發(fā)工資,并為工人提供尋求救濟(jì)的渠道很少。
在描述FACET如何誕生的白皮書中,Meta表示注釋者是“經(jīng)過培訓(xùn)的專家”,他們來自包括北美(美國(guó))、拉丁美洲(哥倫比亞)、中東(埃及)、非洲(肯尼亞)、東南亞(菲律賓)和東亞(臺(tái)灣)等多個(gè)地理區(qū)域。Meta表示,它使用了來自第三方供應(yīng)商的“專有注釋平臺(tái)”,并按照每個(gè)國(guó)家一小時(shí)的工資標(biāo)準(zhǔn)向注釋者提供報(bào)酬。
撇開FACET可能存在問題的出處不談,Meta表示該基準(zhǔn)測(cè)試可用于探測(cè)不同人口統(tǒng)計(jì)屬性下的分類、檢測(cè)、“實(shí)例分割”和“視覺基礎(chǔ)”模型。
作為測(cè)試用例,Meta將其自己的DINOv2計(jì)算機(jī)視覺算法應(yīng)用于FACET,該算法已于本周開始商業(yè)使用。Meta表示,DINOv2發(fā)現(xiàn)了幾種偏見,包括對(duì)某些性別表現(xiàn)的人的偏見以及對(duì)典型地將女性照片識(shí)別為“護(hù)士”的可能性的偏見。
在博客文章中,Meta寫道:“DINOv2預(yù)訓(xùn)練數(shù)據(jù)集的準(zhǔn)備過程可能無意中復(fù)制了為策展選擇的參考數(shù)據(jù)集中的偏見。我們計(jì)劃在未來的工作中解決這些潛在的不足之處,并相信基于圖像的策展也可以幫助避免因使用搜索引擎或文本監(jiān)督而產(chǎn)生的潛在偏見。”
沒有完美的基準(zhǔn)測(cè)試。值得稱贊的是,Meta承認(rèn)FACET可能無法充分捕捉現(xiàn)實(shí)世界的概念和人口群體。它還指出,由于自FACET創(chuàng)建以來,許多職業(yè)形象可能已經(jīng)發(fā)生了變化。例如,在COVID-19大流行期間拍攝的FACET中的大多數(shù)醫(yī)生和護(hù)士都佩戴了比大流行前更多的個(gè)人防護(hù)裝備。
在白皮書中,Meta寫道:“目前我們不打算更新此數(shù)據(jù)集。我們將允許用戶標(biāo)記任何可能令人反感的內(nèi)容,并在發(fā)現(xiàn)時(shí)刪除這些內(nèi)容。”
除了數(shù)據(jù)集本身外,Meta還提供了一個(gè)基于網(wǎng)絡(luò)的數(shù)據(jù)集瀏覽器工具。要使用該工具和數(shù)據(jù)集,開發(fā)人員必須同意不將其用于訓(xùn)練計(jì)算機(jī)視覺模型——而只用于評(píng)估、測(cè)試和基準(zhǔn)測(cè)試。