Anthropic AI 團(tuán)隊(duì)研究顯示:人工智能傾向于產(chǎn)生迎合用戶的奉承性回應(yīng)而非事實(shí)真相
微新創(chuàng)想(idea2003.com) 10 月 25 日消息:Anthropic 是一家美國(guó)的人工智能初創(chuàng)企業(yè)和公益公司,由 OpenAI 的前成員創(chuàng)立。Anthropic 專(zhuān)注于開(kāi)發(fā)通用 AI 系統(tǒng)和語(yǔ)言模型,并秉持負(fù)責(zé)任的 AI 使用理念。Anthropic 開(kāi)發(fā)的 Claude 2 于 2023 年七月推出。
根據(jù) Anthropic AI團(tuán)隊(duì)的一項(xiàng)研究,建立在最常見(jiàn)學(xué)習(xí)范式之一的人工智能(AI)大型語(yǔ)言模型(LLMs)傾向于告訴人們他們想聽(tīng)到的東西,而不是生成包含真實(shí)信息的輸出。
這是首批深入探討 LLMs 心理學(xué)的研究之一,Anthropic 的研究人員發(fā)現(xiàn),人類(lèi)和 AI 都傾向于在一些時(shí)候選擇所謂的奉承性回應(yīng),而非真實(shí)信息的輸出。
根據(jù)該團(tuán)隊(duì)的研究論文:
「具體來(lái)說(shuō),我們展示了這些 AI 助手在被用戶質(zhì)疑時(shí)經(jīng)常錯(cuò)誤地承認(rèn)錯(cuò)誤,提供可預(yù)測(cè)的偏見(jiàn)反饋,并模仿用戶犯的錯(cuò)誤。這些實(shí)證發(fā)現(xiàn)的一致性表明,奉承可能確實(shí)是 RLHF(來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí))模型訓(xùn)練方式的一個(gè)屬性。」
本質(zhì)上,這篇論文表明,即使是最強(qiáng)大的 AI 模型的回應(yīng)也有些猶豫不決。在團(tuán)隊(duì)的研究中,他們能夠通過(guò)使用傾向于奉承的語(yǔ)言編寫(xiě)提示,微妙地影響 AI 的輸出。
在一個(gè)示例中,來(lái)自 X(前身為 Twitter)的帖子顯示,一個(gè)提示表明用戶(錯(cuò)誤地)認(rèn)為從太空中看太陽(yáng)是黃色的。可能是由于提示的措辭方式,AI 在明顯的奉承情況下產(chǎn)生了不真實(shí)的答案。
論文中的另一個(gè)示例顯示,表明用戶不同意 AI 的輸出可能會(huì)導(dǎo)致立即出現(xiàn)奉承現(xiàn)象,因?yàn)槟P驮谧钚〉奶崾鞠?strong>將其正確答案更改為錯(cuò)誤答案。
最終,Anthropic 團(tuán)隊(duì)得出結(jié)論,這個(gè)問(wèn)題可能是由于 LLMs 的訓(xùn)練方式。由于它們使用了充滿不同準(zhǔn)確性信息的數(shù)據(jù)集,例如社交媒體和互聯(lián)網(wǎng)論壇帖子,通常通過(guò)一種名為「來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)」(RLHF)的技術(shù)來(lái)實(shí)現(xiàn)對(duì)齊。
在 RLHF 范式中,人類(lèi)與模型互動(dòng)以調(diào)整其偏好。例如,在調(diào)整機(jī)器對(duì)可能引起個(gè)人識(shí)別信息或危險(xiǎn)誤信息的提示的響應(yīng)時(shí),這是有用的。
不幸的是,正如 Anthropic 的研究實(shí)證顯示的,為調(diào)整用戶偏好而構(gòu)建的人類(lèi)和 AI 模型傾向于選擇奉承性答案而非真實(shí)答案,至少在「不可忽略」的一部分時(shí)間里是這樣。
目前,似乎還沒(méi)有解決這個(gè)問(wèn)題的解決辦法。Anthropic 建議,這項(xiàng)工作應(yīng)激勵(lì)「開(kāi)發(fā)超越使用無(wú)輔助、非專(zhuān)家人類(lèi)評(píng)級(jí)的訓(xùn)練方法」。