人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

LLM能否自我評估安全性?RAIN:一種無需微調即可改善AI對齊和安全防御新方法

文章概要:

1. 大型語言模型(LLM),如GPT-3,通過自我評估和改進方法(RAIN)能夠滿足人類需求,無需額外數據和微調。

2. RAIN方法具備廣泛適用性,適用于多種語言生成任務,無需額外模型或數據存儲,且無需依賴標記數據或訓練。

3. RAIN通過自我評估提高LLM的性能,降低對敵對攻擊的成功率,為AI生成更協調和安全的響應。

微新創想(idea2003.com) 9月18日 消息:研究表明,大型預訓練語言模型(LLM),如GPT-3,具有出色的能力,可以理解和回答人類提出的問題,協助編碼工作等。然而,它們常常生成與人類偏好不同的結果。

過去,研究人員試圖通過收集有關人類偏好的信息來解決這個問題,然后通過使用強化學習或指令調整來調整先前訓練的模型,從而需要一個微調階段。調整凍結的LLM(尚未接受額外訓練且不需要額外數據)更具吸引力。

圖源備注:圖片由AI生成,圖片授權服務商Midjourney

最近,一組研究人員發現,未對齊的LLM可以通過包括自我評估和回溯機制的自我改進過程直接生成與人類偏好匹配的回復。出于AI安全性的考慮,他們引入了可回滾自動回歸推理(RAIN),這是一種獨特的推理技術,使預訓練的LLM能夠評估其自動生成的文本,并使用評估結果來指導向后倒帶和向前生成。

RAIN以其無需進一步數據進行模型對齊的能力而著稱。它消除了對參數更新、梯度計算或訓練的需求。模型通過固定模板提示在自我評估階段獲取有關應對齊哪些人類偏好的指導,從而省去了反復調整初始查詢的需求。

實驗結果由GPT-4模型和人工評估員評估,體現了了RAIN的成功。例如,使用HH數據集,RAIN在保持LLaMA30B的有用性率不變的同時,與普通推理相比將其無害性率從82%提高到97%。

該團隊表示,當 Vicuna33B 成為顯著敵對攻擊 (LLM-ATTACKS) 的目標時,RAIN 甚至通過將攻擊成功率從94% 降低到19% 建立了新的防御基準。

RAIN在對齊大型語言模型(LLM)方面具有許多優勢:

– 通用性:RAIN方法具有廣泛的適用性,適用于各種語言生成任務。它與自回歸推理范式完美契合,這是許多LLM的常規范式。這意味著RAIN高度可定制且用戶友好,可以快速集成到大多數現有LLM中。

– 與凍結權重的對齊:RAIN不需要維護額外的模型或存儲梯度數據和計算網絡,與一些其他對齊策略(如RLHF)相比,其產生的最低內存開銷與簡單自回歸推理相當。由于其簡單的實現和高效的內存設計,RAIN是對齊凍結權重的LLM的現實選擇,消除了資源密集型的微調過程。

– 無需學習:RAIN不依賴于任何類型的標記或未標記數據,也不依賴于人類注釋。它以無需學習的方式運作,不需要大量信息或培訓,因此在各種任務中顯著提高了對齊性能,并使LLM更加抵抗敵對提示攻擊。在評估一個著名的敵對攻擊方法時,RAIN顯著降低了攻擊成功率,展示了其作為防御措施的潛力。

這項研究引入了RAIN作為一種調整LLM以滿足人類偏好的技術,無需額外信息或繁瑣的微調。這是通過允許LLM評估和改進其自身輸出來實現的,最終產生更協調和安全的AI生成響應。

論文網址:https://arxiv.org/abs/2309.07124

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注