人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

圖靈測試已死!ChatGPT通過人類考試也不算,超強AI評估新秀「邏輯謎題」

聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權微新創想轉載發布。

【新智元導讀】如何給大模型一個真正公平評價標準呢?

世界最強AI——ChatGPT可以通過各種考試,甚至輸出回答讓人難以辨別真假。

然而,它也有力所不及之處,那便是解決簡單的視覺邏輯難題。

在一項由屏幕上排列的一系列色彩鮮艷的塊組成的測試中,大多數人都能找出連接的圖案。

但是,根據研究人員今年5月的一份報告,GPT-4在一類圖案的測試中正確率僅為1/3,而在另一類圖案中正確率僅為3%。

論文地址:https://arxiv.org/pdf/2305.07141.pdf

這項研究背后的團隊,旨在為了測試AI系統的能力提供一個更好的基準,并幫助解決GPT-4等大型語言模型的難題。

論文作者Melanie Mitchell表示,人工智能領域的人們正在為如何評估這些系統而苦苦掙扎。

AI評估如何有效?

在過去的兩三年里,LLM 在完成多項任務的能力上已經超越了以前的人工智能系統。

它們的工作原理很簡單,就是根據數十億在線句子中單詞之間的統計相關性,在輸入文本時生成可信的下一個單詞。

對于基于LLM構建的聊天機器人來說,還有一個額外的元素:人類訓練員提供了大量反饋,以調整機器人的反應。

令人驚嘆的是,這種類似于自動完成的算法是在大量人類語言存儲的基礎上訓練出來的,其能力的廣度令人嘆為觀止。

其他人工智能系統可能會在某項任務中擊敗 LLM,但它們必須在與特定問題相關的數據上進行訓練,無法從一項任務推廣到另一項任務。

哈佛大學的認知科學家Tomer Ullman表示,從廣義上講,對于LLM背后發生的事情,兩個陣營的研究人員持有截然相反的觀點。一些人將算法的成就歸因于推理或理解的閃光點。其他人(包括他自己和Mitchell等人)則要謹慎得多。

討論雙方的研究人員表示,像邏輯謎題這樣揭示人類與AI系統能力差異的測試,是朝著正確方向邁出的一步。

紐約大學認知計算科學家Brenden Lake說,這種基準測試有助于揭示當今機器學習系統的不足之處,并理清了人類智能的要素。

關于如何最好地測試LLM,以及這些測試意義的研究也很實用。

Mitchell說,如果要將LLM應用于現實世界的各個領域,比如醫學、法律。那么了解它們的能力極限就非常重要。

圖靈測試死了嗎?

長期以來,機器智能最著名的測試一直是圖靈測試。

圖靈測試是英國數學家和計算大師艾倫·圖靈在1950年提出,當時計算機還處于起步階段。

圖靈提出了一個評估,他稱之為「模仿游戲」。

在這個場景中,「人類法官」與一臺計算機、和一個看不見的人進行簡短的、基于文本的對話。

這個人類能可靠地檢測出哪臺是計算機嗎?圖靈表示,這是一個相當于「機器能否思考」的問題。

Mitchell指出,圖靈并沒有具體說明場景的許多細節,因此沒有確切的標準可循。

其他研究人員認為,GPT-4和其他LLM現在很可能通過了「圖靈測試」,因為它們可以騙過很多人,至少是在短對話中。

5月,AI21實驗室的研究人員報告說,超過150萬人玩過他們基于圖靈測試的在線游戲。

玩家正確識別機器人的比例僅為60%,這并不比偶然性好多少。

然而,在這種游戲中,熟悉LLM的研究人員可能仍然會獲勝。通過利用AI系統的已知弱點,就會很容易發現LLM。

關鍵是要讓LLM走出自己的「舒適區」。

谷歌軟件工程師Fran?ois Chollet建議,向LLM演示一些場景,這些場景是LLM在其訓練數據中經常看到的場景的變體。在許多情況下,LLM的回答方式是,吐出最有可能與訓練數據中的原始問題相關聯的單詞,而不是針對新情景給出的正確答案。

然而,Chollet和其他人對,把以欺騙為中心的測試作為計算機科學的目標持懷疑態度。

基準測試有危險

相反,研究人員在評估人工智能系統時,通常不采用圖靈測試,而是使用旨在評估特定能力(如語言能力、常識推理和數學能力)表現的基準。

越來越多的研究團隊也開始轉向,為人類設計的學術和專業考試。

GPT-4發布時,OpenAI在一系列專為機器設計的基準測試中測試了其性能,包括閱讀理解、數學和編碼。

根據技術報告,GPT-4在其中大部分測試中都取得了優異成績。

此外,GPT-4還參加了30項考試,GRE、評估美國醫生臨床知識現狀的考試、為美國高中生設計的各種特定科目的考試等等。

后來,有研究人員提到的一個挑戰是,模型是在大量文本中訓練出來的,它們可能已經在訓練數據中看到過類似的問題,因此實際上可能是在尋找答案。這個問題其實被「污染」了。

研究人員還指出,LLM在考試問題上的成功可能一擊就破,可能無法轉化為在現實世界中所需的強大能力。

在解釋這些基準的含義時,還有一個更深層次的問題。

一個在考試中表現出色的人,一般可以被認為在其他認知測試中表現出色,并且掌握了某些抽象概念。

然而,LLM工作方式與人類截然不同。因此,用我們評判人類方式,來推斷人工智能系統,并不總是有效的。

這可能是因為LLM只能從語言中學習。如果沒有在物理世界中,它們無法像人那樣體驗語言與物體、屬性和情感的聯系。

很明顯,他們理解單詞的方式與人類不同。

另一方面,LLM 也擁有人類所不具備的能力,比如,它們知道人類寫過的幾乎每一個單詞之間的聯系。

OpenAI的研究員Nick Ryder也認為,一項測試的表現可能,不會像獲得相同分數的人那樣具有普遍性。

他表示,我認為,我們不應該從對人類和大型語言模型的評估中得出任何等價的結論。OpenAI 的分數 "并不代表人類的能力或推理能力。它的目的是說明模型在該任務中的表現如何。

人工智能研究人員表示,為了找出LLM的優勢和劣勢,需要更廣泛和嚴格的審查。豐富多彩的邏輯謎題可能是其中的一個候選者。

邏輯謎題登場

2019年,在LLM爆發之前,Chollet在網上發布了,自己創建的一種新的人工智能系統邏輯測試,稱為抽象和推理語料庫(ARC) 。

解題者要看幾個方格變為另一種圖案的可視化演示,并通過指出下一個方格將如何變換來表明他們已經掌握了變化的基本規則。

Chollet表示,ARC 捕捉到了「人類智慧的標志」。從日常知識中進行抽象,并將其應用于以前從未見過的問題的能力。

當前,幾個研究團隊現在已經使用ARC來測試LLM的能力,沒有一個能實現接近人類的表現。

Mitchell和她的同事制作了一系列新的謎題——被稱為ConceptARC——它們的靈感來自ARC,但在兩個關鍵方面有所不同。

ConceptARC測試更容易。Mitchell的團隊希望確?;鶞蕼y試,不會錯過機器能力的進步,哪怕是很小的進步。另一個區別是,團隊選擇特定的概念進行測試,然后為每個主題的變體概念創建一系列謎題。

性能差意味著什么

研究人員將ConceptARC任務分配給GPT-4和400名在線應征者。

人類在所有概念組中的平均得分率為91%(其中一組為97%);GPT-在一組中的得分率為33%,在所有其他組中得分不到30%。

研究人員證明,AI仍然無法接近人類的水平。然而令人驚訝的是,它能解決一些從未被訓練過的問題。

研究小組還測試了Chollet競賽中的領先聊天機器人。

總的來說,他們比GPT-4做得更好,但表現比人類差,在一個類別中得分最高,為77%,但在大多數類別中得分不到60%。

不過,Bowman表示,GPT-4在ConceptARC考試中的失利并不能證明它缺乏基本的抽象推理能力。

其實,ConceptARC對GPT-4有些不利,其中一個原因是它是一項視覺測試。

目前,GPT-4僅能接受文本作為輸,因此研究人員給GPT-4提供了代表圖像的數字數組。相比之下,人類參與者看到了圖像。

推理論證

Bowman指出,與其他實驗綜合起來表明,LLM至少已經獲得了對抽象概念進行推理的基本能力。

但LLM的推理能力總體上是「參差不齊的」,比人類的推理能力更有限。不過,隨著LLM的參數規模擴大,推理能力相應地也會提高。

許多研究人員一致認為,測試LLM抽象推理能力和其他智力跡象的最佳方法,仍然是一個開放的、未解決的問題。

參考資料:

https://www.nature.com/articles/d41586-023-02361-7

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注