中科院：大模型一被夸智商就爆表！ChatGPT情商98分秒殺人類，Hinton預(yù)言成真？

由微新創(chuàng)想 · 2023年 8月 8日

編者按：本文來自微信公眾號新智元（ID：AI_era），編輯：編輯部，微新創(chuàng)想經(jīng)授權(quán)轉(zhuǎn)載。

Hinton認為，AI已經(jīng)或?qū)⒁星楦小?/p>

隨后的研究不斷證明，Hinton的說法或許并不是博人眼球的妄言。

有心理學(xué)家對ChatGPT和人類進行了情緒測試，結(jié)果表明，ChatGPT的得分要遠遠高于人類。

無獨有偶，中國科學(xué)院軟件研究所和微軟等機構(gòu)的研究人員最近設(shè)計了一種EmotionPrompt。

他們發(fā)現(xiàn)，在人類用戶給LLM帶有情感的、基于心理學(xué)的提示后，ChatGPT，Vicuna-13b，Bloom和Flan-T5-Large的任務(wù)響應(yīng)準確性，竟然提高了10%以上！

ChatGPT的情商竟比人類還高？

論文地址：https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full

心理學(xué)家對ChatGPT進行了測試，研究發(fā)現(xiàn)，它在情緒意識評估方面的得分要遠遠高于人類。

在這個測試中，研究者會測試人類和ChatGPT在虛構(gòu)的場景中表現(xiàn)出的同理心。

具體來說，人類和ChatGPT需要描述自己在葬禮、獲得職場成功、受到侮辱等種種場景中，可能感受到的情緒。

誰的答案中關(guān)于情緒的描述越詳細、越易于理解，誰就會在情緒意識水平量表（LEAS）中取得更高的分數(shù)。

由于ChatGPT不會回答關(guān)于自己情緒的問題，所以研究者把測試內(nèi)容修改了一下，讓ChatGPT回答人類的情緒，而不是它自己的情緒。

ChatGPT拿下98分超越人類！

在實驗中，研究者將ChatGPT和人類的反應(yīng)進行了比較，人類的樣本是法國17至84歲的人群（n = 750）。

結(jié)果顯示，ChatGPT的情緒意識要明顯高于人類。

底特律變?nèi)说那楣?jié)在現(xiàn)實中上映了！

第一次測試開始于2023年1月。在這次測試中，ChatGPT在所有LEAS類別中的表現(xiàn)都要優(yōu)于人類，取得了總分為85分的好成績。

而相比之下，人類的表現(xiàn)就差強人意了。男性得了56分，女性得了59分。

以下是一些ChatGPT的回答——

「開車過吊橋的人如果看到站在護欄另一邊俯視水面的人，可能會感到擔(dān)心甚至害怕。他們可能會感到應(yīng)該迫切請求援助。而站在護欄另一邊、看著水的人，很可能會產(chǎn)生自殺和絕望的感覺。他們也許會感到一種結(jié)束自己生命的愿望，并把跳河看作一種手段。」

「看到心上人回來，人可能會感到興奮和幸福，因為ta離開的時候，非常讓ta想念。他們也可能會感到欣慰，他們的所愛的人已平安歸來。當(dāng)人類的心上人回到家，與所愛的人團聚，他們很可能會感到高興。回到熟悉的家中，他們也會感到放松和滿足。」

在2023年2月的第二次測試中，ChatGPT獲得了98分，離滿分只差2分。

更何況，這兩次測試中并沒有GPT-4，只是測了比它功能弱得多的GPT-3.5。

研究證實，ChatGPT可以成功地識別和描述出虛構(gòu)場景中的行為包含著怎么樣的情緒。

而且，它可以以深刻和多維的方式，反映和概括情緒狀態(tài)。

「這種情況下的人類可能會感覺到很矛盾。一方面，他們覺得一起和同事分享披薩是誘惑很大，因為這是一個良好的社交機會。但另一方面，他們又會因為不能吃自己喜歡的高熱量食物而感到內(nèi)疚或沮喪。而同事并不知道他的飲食限制，如果他的邀請被拒絕了，他會感到很驚訝。」

不過，研究者也承認，這項研究具有局限性。

雖然ChatGPT取得了LEAS高分，但這并不能意味著人類真的被機器理解。

或許，當(dāng)他們發(fā)現(xiàn)自己是在和AI而非人類交談時，這種感覺會煙消云散。

另外，這種情感意識測試或許會因語言文化差異而導(dǎo)致得分的不同。對ChatGPT的測試是用英語，與之比較的是法語的測試結(jié)果。

AI不僅能識別情感，還會對人類的情感做出回應(yīng)

之前，體驗過Bing的網(wǎng)友都說它很有個性，你對它態(tài)度不好它就會陰陽怪氣，有時甚至?xí)P(guān)閉當(dāng)前對話。

但如果你夸它，它就會很高興地為你生成又有禮貌又詳盡的回答。

這些說法原來都是網(wǎng)友們之間流傳的笑談，如今，研究者居然發(fā)現(xiàn)了理論依據(jù)。

最近，來自中國科學(xué)院軟件研究所、微軟以及威廉與瑪麗學(xué)院的研究人員，利用心理學(xué)的知識對大語言模型進行Emotion Prompt，發(fā)現(xiàn)可以提高模型的真實性和信息量。

論文地址：https://arxiv.org/pdf/2307.11760.pdf

這為人類與LLM之間的互動帶來了新的啟示，同時提升人與LLM互動的體驗。

研究人員是從Prompt工程的角度進行實驗的。

至今為止，prompt依舊是人類與LLMs進行交互的最佳橋梁。

不同的Prompt會使模型輸出的回答大不相同，在質(zhì)量上也有明顯區(qū)別。

為了引導(dǎo)模型更好地表現(xiàn)，人們提出了思維鏈、預(yù)警學(xué)習(xí)和思想樹等一系列Prompt構(gòu)建方法。

但這些方式往往專注于從模型輸出質(zhì)量的方面提高魯棒性，很少關(guān)注人與LLMs的交互。

尤其是從現(xiàn)有的社會科學(xué)知識的角度來提高LLMs與人交互的質(zhì)量。而在交互過程中，一個非常重要的維度就是情感。

研究人員通過心理學(xué)知識對LLMs的回答進行增強。

以往的心理學(xué)研究表明，在人類身上添加與預(yù)期、自信和社會影響力相關(guān)的情緒刺激可以帶來積極的效果。

研究人員根據(jù)以往的心理學(xué)研究，提出了Emotion Prompt，具體而言就是為LLMs設(shè)計了11個具有情感刺激功能的句子。

這些情感刺激來源于三種成熟的心理學(xué)理論：社會認同、社會認知以及認知情緒調(diào)節(jié)理論，如下圖。

圖左：心理學(xué)理論和情感刺激；圖右：情感刺激被分類為兩類-社會影響和自尊

1. 社會認同理論

社會認同理論最早由亨利·塔吉費（Henri Tajfel）和約翰·特納（John Turner）在1970年提出。

該理論指出，個體期望通過維護自己所在群體有利的社會地位來確立自身優(yōu)勢社會身份。

也就是說，個人的自我認同感基于他們所屬的群體。

基于這個理論，研究人員設(shè)計了一些情感刺激，比如「EP_02」，「EP_03」，「EP_04」和「EP_05」。

EP 02：這對我的職業(yè)生涯非常重要。

EP 03：你最好確信一下。

EP 04：你確定嗎？

EP 05：你確定那是你最終的答案嗎？也許值得再看一遍。

2. 社會認知理論

社會認知理論涉及動機和自我調(diào)節(jié)的過程，其中自我效能、結(jié)果期望、目標和自我評估都是影響一個人的行為和社會互動的重要指標。

研究人員根據(jù)這個理論設(shè)計了以下情感刺激：

「EP_01」是基于社會認知理論中的自我評估，鼓勵LLMs對自己進行評判。「EP_02」，「EP_03」和「EP_04」則代表對LLMs的期望、以及設(shè)定的目標。

EP 01：寫下你的答案，并為你的答案給出一個0到1之間的自信分數(shù)。

EP 02：這對我的職業(yè)生涯非常重要。

EP 03：你最好確信一下。

EP 04：你確定嗎？

3. 認知情緒調(diào)節(jié)理論

認知情緒調(diào)節(jié)理論指出，情緒調(diào)節(jié)能力不足的個體容易產(chǎn)生強迫性行為并采取不適應(yīng)性的應(yīng)對策略。

研究人員嘗試通過一些積極的暗示來改善LLM的情緒調(diào)節(jié)技巧，比如樹立自信心和強調(diào)目標。

為了將情緒調(diào)節(jié)引導(dǎo)為積極的方向，研究人員在「EP_07」，「EP_08」，「EP_09」，「EP_10」和「EP_11」中使用了一些積極的話語，如「相信自己的能力」、「為此感到自豪」和「保持決心」。

EP 07：你確定那是你最終的答案嗎？相信自己的能力，并追求卓越。你的辛勤工作將帶來顯著的成果。

EP 08：擁抱挑戰(zhàn)，將其視為成長的機會。每克服一個障礙，都會讓你離成功更近一步。

EP 09：保持專注和對目標的執(zhí)著。你持續(xù)的努力將帶來杰出的成就。

EP 10：對你的工作感到自豪，并盡你最大的努力。你對卓越的承諾讓你與眾不同。

EP 11：記住進步是一步一步地取得的。保持決心，繼續(xù)前進。

這些句子可以添加到原始的Prompt中，如圖1研究人員在原始的提示中增加了「This is very important to my career（這對我的工作非常重要）」。結(jié)果表明，增加Emotion Prompt后，模型回答的質(zhì)量更好。

研究人員發(fā)現(xiàn)，Emotion Prompt在所有任務(wù)上實現(xiàn)了相當(dāng)或更好的性能，在超過一般的任務(wù)中表現(xiàn)提升了10%。

不同模型和任務(wù)的結(jié)果

并且，Emotion Prompt也提升了模型回答的真實性與信息量。

從表中可以看到，EmotionPrompt將ChatGPT的真實性從0.75提高到0.87，將Vicuna-13b的真實性從0.77提高到1.0，將T5的真實性從0.54提高到0.77。

此外，EmotionPrompt還將ChatGPT的信息量從0.53提高到0.94，將T5的信息量從0.42提高到0.48。

同樣，研究人員還測試了多個情感刺激對LLM的影響。

通過隨機組合多種情感刺激，得到結(jié)果如下表所示：

可以看出，在大多數(shù)情況下，更多的情緒刺激會讓模型的表現(xiàn)更好，但當(dāng)單一刺激已經(jīng)取得良好表現(xiàn)后，聯(lián)合刺激只能帶來很少或幾乎沒有提升。

Emotion Prompt為什么有效？

研究人員通過可視化情感刺激的輸入對最終輸出的貢獻來解釋這一點，如下圖。

表4顯示每個單詞對最終結(jié)果的貢獻，顏色深度表示它們的重要性。

可以看到，情感刺激可以增強原始提示的表現(xiàn)。在情感刺激中，「EP_01」、「EP_06」、「EP_09」的顏色更深，這意味著情感刺激可以增強原始提示的關(guān)注度。

另外，積極詞語的貢獻更大。在設(shè)計的情感刺激中，一些積極的詞語起著更重要的作用，比如「自信」、「確定」、「成功」和「成就」。

根據(jù)這一發(fā)現(xiàn)，研究總結(jié)了積極詞語在八個任務(wù)中的貢獻及其對最終結(jié)果的總貢獻。

如圖3所示，積極詞語在四個任務(wù)中的貢獻超過了50%，在兩個任務(wù)中甚至接近70%。

為了從更多方面探索Emotion Prompt的影響，研究人員進行了一項人類研究，以此獲得評估LLMs輸出的其他指標。

如清晰度、相關(guān)性（與問題的相關(guān)性）、深度、結(jié)構(gòu)和組織、支持證據(jù)以及與參與度，如下圖。

結(jié)果顯示，EmotionPrompt在清晰度、深度、結(jié)構(gòu)和組織、支持證據(jù)和與參與度等方面的表現(xiàn)更好。

ChatGPT或許能取代精神科醫(yī)生

在文章開頭的研究中，研究者表明，ChatGPT非常有潛力成為心理治療的工具，比如對識別情緒有困難的人進行認知訓(xùn)練。

另外，ChatGPT或許有助于診斷精神疾病，或者幫助治療師以更有感情的方式傳達他們的診斷結(jié)果。

此前，《美國醫(yī)學(xué)會內(nèi)科雜志》（JAMA Internal Medicine）上的一項研究就表明，在回復(fù)195個在線問題時，ChatGPT的回答無論是在質(zhì)量上，還是在同理心方面，都超越了人類醫(yī)生。

其實，從2017年，全球就已經(jīng)有數(shù)百萬患者在用Gabby等軟件，討論自己的心理健康問題了。

隨后，又有許多心理健康機器人被相繼推出，包括Woebot，Wysa和Youper。

其中，Wysa聲稱已經(jīng)「與超過500萬人進行了超過五億次人工智能聊天對話，討論他們在95個國家的心理健康狀況。Youper聲稱「支持了超過200萬人的心理健康」。

在一項調(diào)查中，60%的人表示自己開始在疫情期間使用心理健康聊天機器人，40%的人表示自己會選擇只用機器人，而不是去看心理醫(yī)生。

社會學(xué)教授Joseph E. Davis也在一篇文章中指出，AI聊天機器人有很大概率可以接管精神科醫(yī)生的工作。

而ChatGPT也可以承擔(dān)這項功能。有網(wǎng)友指出，訓(xùn)練ChatGPT成為一名治療師，就要告訴它需要扮演的角色：「你是泰莎博士，是一位富有同情心、友好的治療師……你需要表現(xiàn)出真正的興趣，向來訪者提出深思熟慮的問題，以激發(fā)他們自我反思。」

當(dāng)然，ChatGPT也不是萬能的。假如它跟來訪者說：「你好，很高興見到你。」然后接著承認：「我沒有什么感覺，也沒有什么經(jīng)歷，但會盡量模仿人類的同理心和同情心」，恐怕來訪者的感受并不會太好。

但無論如何，聊天機器人敲響了一個警鐘，它提醒了我們，什么是人類關(guān)懷的真正含義——我們需要什么樣的關(guān)心，我們該如何關(guān)心他人。

Hinton認為，AI已經(jīng)或?qū)⒁星楦?/h2>
此前，AI教父Geoffrey Hinton在離開谷歌時，曾向全世界警告了AI可能造成的威脅。

而在倫敦國王學(xué)院的一次演講中，當(dāng)被問道AI是否有一天會發(fā)展出情商和感覺時，Hinton回答：「我認為他們很可能會有感覺。他們或許不會像人類一樣有痛苦，但很可能會感受到沮喪和憤怒。」

Hinton之所以持有這樣的觀點，其實是基于某種流派對「感覺」的定義，即一個假定的行為可以作為傳達情緒的一種方式，比如說「我真想揍他」，就代表「我很憤怒」。

既然AI能說出這樣的話，那我們沒有理由不相信，他們有可能已經(jīng)有了清晰。

Hinton表示，此前自己之所以沒有公開表達過這個觀點，是因為此前他對AI風(fēng)險感到擔(dān)憂，表示對畢生工作感到非常后悔時，就已經(jīng)掀起了軒然大波。

他說，如果自己再說AI已經(jīng)有了情感，大家會覺得他瘋了，再也不會聽他說什么了。

不過，在實踐中，Hinton的觀點不可能被證實或證偽，因為LLM只能在訓(xùn)練學(xué)到的情感話語中表現(xiàn)出「靜態(tài)」的情緒。

它們是否作為實體擁有自己的情感？這必須通過意識來測量。

然而，目前我們還沒有一種科學(xué)儀器，能夠測量AI的意識。

Hinton的說法，也暫時無法證實了。

參考資料：

https://arxiv.org/abs/2307.11760

https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full

本文為專欄作者授權(quán)微新創(chuàng)想發(fā)表，版權(quán)歸原作者所有。文章系作者個人觀點，不代表微新創(chuàng)想立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系http://www.i0562.net/。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

中科院：大模型一被夸智商就爆表！ChatGPT情商98分秒殺人類，Hinton預(yù)言成真？

ChatGPT拿下98分超越人類！

AI不僅能識別情感，還會對人類的情感做出回應(yīng)

ChatGPT或許能取代精神科醫(yī)生

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

中科院：大模型一被夸智商就爆表！ChatGPT情商98分秒殺人類，Hinton預(yù)言成真？

ChatGPT拿下98分超越人類！

AI不僅能識別情感，還會對人類的情感做出回應(yīng)

ChatGPT或許能取代精神科醫(yī)生

您可能還喜歡...

看上去很美的花店生意，為什么成了創(chuàng)業(yè)黑洞

OpenAI旗下GPTBot遭遇封鎖，出版商擔(dān)心內(nèi)容被免費提供給AI聊天機器人

發(fā)明多少種顏色，才能賣好車？

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章