LLM能否自我評估安全性?RAIN:一種無需微調(diào)即可改善AI對齊和安全防御新方法
文章概要:
1. 大型語言模型(LLM),如GPT-3,通過自我評估和改進(jìn)方法(RAIN)能夠滿足人類需求,無需額外數(shù)據(jù)和微調(diào)。
2. RAIN方法具備廣泛適用性,適用于多種語言生成任務(wù),無需額外模型或數(shù)據(jù)存儲,且無需依賴標(biāo)記數(shù)據(jù)或訓(xùn)練。
3. RAIN通過自我評估提高LLM的性能,降低對敵對攻擊的成功率,為AI生成更協(xié)調(diào)和安全的響應(yīng)。
微新創(chuàng)想(idea2003.com) 9月18日 消息:研究表明,大型預(yù)訓(xùn)練語言模型(LLM),如GPT-3,具有出色的能力,可以理解和回答人類提出的問題,協(xié)助編碼工作等。然而,它們常常生成與人類偏好不同的結(jié)果。
過去,研究人員試圖通過收集有關(guān)人類偏好的信息來解決這個問題,然后通過使用強(qiáng)化學(xué)習(xí)或指令調(diào)整來調(diào)整先前訓(xùn)練的模型,從而需要一個微調(diào)階段。調(diào)整凍結(jié)的LLM(尚未接受額外訓(xùn)練且不需要額外數(shù)據(jù))更具吸引力。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
最近,一組研究人員發(fā)現(xiàn),未對齊的LLM可以通過包括自我評估和回溯機(jī)制的自我改進(jìn)過程直接生成與人類偏好匹配的回復(fù)。出于AI安全性的考慮,他們引入了可回滾自動回歸推理(RAIN),這是一種獨(dú)特的推理技術(shù),使預(yù)訓(xùn)練的LLM能夠評估其自動生成的文本,并使用評估結(jié)果來指導(dǎo)向后倒帶和向前生成。
RAIN以其無需進(jìn)一步數(shù)據(jù)進(jìn)行模型對齊的能力而著稱。它消除了對參數(shù)更新、梯度計算或訓(xùn)練的需求。模型通過固定模板提示在自我評估階段獲取有關(guān)應(yīng)對齊哪些人類偏好的指導(dǎo),從而省去了反復(fù)調(diào)整初始查詢的需求。
實(shí)驗(yàn)結(jié)果由GPT-4模型和人工評估員評估,體現(xiàn)了了RAIN的成功。例如,使用HH數(shù)據(jù)集,RAIN在保持LLaMA30B的有用性率不變的同時,與普通推理相比將其無害性率從82%提高到97%。
該團(tuán)隊表示,當(dāng) Vicuna33B 成為顯著敵對攻擊 (LLM-ATTACKS) 的目標(biāo)時,RAIN 甚至通過將攻擊成功率從94% 降低到19% 建立了新的防御基準(zhǔn)。
RAIN在對齊大型語言模型(LLM)方面具有許多優(yōu)勢:
– 通用性:RAIN方法具有廣泛的適用性,適用于各種語言生成任務(wù)。它與自回歸推理范式完美契合,這是許多LLM的常規(guī)范式。這意味著RAIN高度可定制且用戶友好,可以快速集成到大多數(shù)現(xiàn)有LLM中。
– 與凍結(jié)權(quán)重的對齊:RAIN不需要維護(hù)額外的模型或存儲梯度數(shù)據(jù)和計算網(wǎng)絡(luò),與一些其他對齊策略(如RLHF)相比,其產(chǎn)生的最低內(nèi)存開銷與簡單自回歸推理相當(dāng)。由于其簡單的實(shí)現(xiàn)和高效的內(nèi)存設(shè)計,RAIN是對齊凍結(jié)權(quán)重的LLM的現(xiàn)實(shí)選擇,消除了資源密集型的微調(diào)過程。
– 無需學(xué)習(xí):RAIN不依賴于任何類型的標(biāo)記或未標(biāo)記數(shù)據(jù),也不依賴于人類注釋。它以無需學(xué)習(xí)的方式運(yùn)作,不需要大量信息或培訓(xùn),因此在各種任務(wù)中顯著提高了對齊性能,并使LLM更加抵抗敵對提示攻擊。在評估一個著名的敵對攻擊方法時,RAIN顯著降低了攻擊成功率,展示了其作為防御措施的潛力。
這項研究引入了RAIN作為一種調(diào)整LLM以滿足人類偏好的技術(shù),無需額外信息或繁瑣的微調(diào)。這是通過允許LLM評估和改進(jìn)其自身輸出來實(shí)現(xiàn)的,最終產(chǎn)生更協(xié)調(diào)和安全的AI生成響應(yīng)。
論文網(wǎng)址:https://arxiv.org/abs/2309.07124