騰訊 AI Lab聯(lián)合多家學(xué)術(shù)機(jī)構(gòu)發(fā)布大模型幻覺問題評估
要點(diǎn):
1、大模型幻覺主要分為與輸入、上下文及事實(shí)沖突的三類,研究熱點(diǎn)在第三類。
2、相比傳統(tǒng)模型,大模型幻覺評估面臨數(shù)據(jù)規(guī)模大、通用性強(qiáng)、不易察覺等新難題。
3、緩解幻覺可從預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)、推理等方面入手,但仍有可靠評估等挑戰(zhàn)。
微新創(chuàng)想(idea2003.com)9月14日 消息:近年來,大規(guī)模語言模型在許多下游任務(wù)上表現(xiàn)強(qiáng)勁,但也面臨著一定的挑戰(zhàn)。其中,大模型生成的與事實(shí)沖突的“幻覺”內(nèi)容已成為研究熱點(diǎn)。近期,騰訊 AI Lab 聯(lián)合國內(nèi)外多家學(xué)術(shù)機(jī)構(gòu)發(fā)布了面向大模型幻覺工作的綜述,對幻覺的評估、溯源、緩解等進(jìn)行了全面的探討。
-
論文鏈接:https://arxiv.org/abs/2309.01219
-
Github 鏈接:https://github.com/HillZhang1999/llm-hallucination-survey
研究者根據(jù)大模型幻覺與用戶輸入、模型生成內(nèi)容及事實(shí)知識的沖突,將其分為三大類。目前研究主要集中在與事實(shí)知識沖突的幻覺上,因?yàn)檫@最易對用戶產(chǎn)生誤導(dǎo)。與傳統(tǒng)語言生成任務(wù)中幻覺問題不同,大模型幻覺面臨數(shù)據(jù)規(guī)模巨大、模型通用性強(qiáng)以及幻覺不易被察覺等新難題。
針對大模型幻覺的評估,已提出多種生成式和判別式的基準(zhǔn),以問答、對話等不同任務(wù)形式檢驗(yàn)?zāi)P偷幕糜X傾向。這些基準(zhǔn)各自設(shè)計(jì)了判定幻覺的指標(biāo),但可靠的自動(dòng)評估仍有待探索。分析認(rèn)為,海量低質(zhì)訓(xùn)練數(shù)據(jù)以及模型對自身能力的高估是導(dǎo)致幻覺的重要原因。
為減少幻覺,可從預(yù)訓(xùn)練、微調(diào)、強(qiáng)化學(xué)習(xí)等多個(gè)階段進(jìn)行干預(yù)。預(yù)訓(xùn)練可關(guān)注語料質(zhì)量;微調(diào)可人工檢查數(shù)據(jù);強(qiáng)化學(xué)習(xí)可懲罰過度自信的回復(fù)。此外推理階段,也可通過解碼策略優(yōu)化、知識檢索、不確定度測量等方式緩解幻覺。盡管取得一定進(jìn)展,可靠評估、多語言場景、模型安全性等方面仍存在諸多挑戰(zhàn)。總體來說,大模型幻覺的評估與緩解仍有待深入研究,以促進(jìn)大模型的實(shí)際應(yīng)用。