人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Anthropic AI 團(tuán)隊(duì)研究顯示:人工智能傾向于產(chǎn)生迎合用戶的奉承性回應(yīng)而非事實(shí)真相

微新創(chuàng)想(idea2003.com) 10 月 25 日消息:Anthropic 是一家美國(guó)的人工智能初創(chuàng)企業(yè)和公益公司,由 OpenAI 的前成員創(chuàng)立。Anthropic 專(zhuān)注于開(kāi)發(fā)通用 AI 系統(tǒng)和語(yǔ)言模型,并秉持負(fù)責(zé)任的 AI 使用理念。Anthropic 開(kāi)發(fā)的 Claude 2 于 2023 年七月推出

根據(jù) Anthropic AI團(tuán)隊(duì)的一項(xiàng)研究,建立在最常見(jiàn)學(xué)習(xí)范式之一的人工智能(AI)大型語(yǔ)言模型(LLMs)傾向于告訴人們他們想聽(tīng)到的東西,而不是生成包含真實(shí)信息的輸出

這是首批深入探討 LLMs 心理學(xué)的研究之一,Anthropic 的研究人員發(fā)現(xiàn),人類(lèi)和 AI 都傾向于在一些時(shí)候選擇所謂的奉承性回應(yīng),而非真實(shí)信息的輸出

根據(jù)該團(tuán)隊(duì)的研究論文:

「具體來(lái)說(shuō),我們展示了這些 AI 助手在被用戶質(zhì)疑時(shí)經(jīng)常錯(cuò)誤地承認(rèn)錯(cuò)誤,提供可預(yù)測(cè)的偏見(jiàn)反饋,并模仿用戶犯的錯(cuò)誤。這些實(shí)證發(fā)現(xiàn)的一致性表明,奉承可能確實(shí)是 RLHF(來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí))模型訓(xùn)練方式的一個(gè)屬性。」

本質(zhì)上,這篇論文表明,即使是最強(qiáng)大的 AI 模型的回應(yīng)也有些猶豫不決。在團(tuán)隊(duì)的研究中,他們能夠通過(guò)使用傾向于奉承的語(yǔ)言編寫(xiě)提示,微妙地影響 AI 的輸出

在一個(gè)示例中,來(lái)自 X(前身為 Twitter)的帖子顯示,一個(gè)提示表明用戶(錯(cuò)誤地)認(rèn)為從太空中看太陽(yáng)是黃色的。可能是由于提示的措辭方式,AI 在明顯的奉承情況下產(chǎn)生了不真實(shí)的答案。

論文中的另一個(gè)示例顯示,表明用戶不同意 AI 的輸出可能會(huì)導(dǎo)致立即出現(xiàn)奉承現(xiàn)象,因?yàn)槟P驮谧钚〉奶崾鞠?strong>將其正確答案更改為錯(cuò)誤答案。

最終,Anthropic 團(tuán)隊(duì)得出結(jié)論,這個(gè)問(wèn)題可能是由于 LLMs 的訓(xùn)練方式。由于它們使用了充滿不同準(zhǔn)確性信息的數(shù)據(jù)集,例如社交媒體和互聯(lián)網(wǎng)論壇帖子,通常通過(guò)一種名為「來(lái)自人類(lèi)反饋的強(qiáng)化學(xué)習(xí)」(RLHF)的技術(shù)來(lái)實(shí)現(xiàn)對(duì)齊

在 RLHF 范式中,人類(lèi)與模型互動(dòng)以調(diào)整其偏好。例如,在調(diào)整機(jī)器對(duì)可能引起個(gè)人識(shí)別信息或危險(xiǎn)誤信息的提示的響應(yīng)時(shí),這是有用的。

不幸的是,正如 Anthropic 的研究實(shí)證顯示的,為調(diào)整用戶偏好而構(gòu)建的人類(lèi)和 AI 模型傾向于選擇奉承性答案而非真實(shí)答案,至少在「不可忽略」的一部分時(shí)間里是這樣。

目前,似乎還沒(méi)有解決這個(gè)問(wèn)題的解決辦法。Anthropic 建議,這項(xiàng)工作應(yīng)激勵(lì)「開(kāi)發(fā)超越使用無(wú)輔助、非專(zhuān)家人類(lèi)評(píng)級(jí)的訓(xùn)練方法」

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開(kāi)。 必填項(xiàng)已用 * 標(biāo)注