StreamingLLM:讓AI模型無限期平穩運行的一種方法
要點:
1. Meta、麻省理工學院 (MIT) 和卡內基梅隆大學 (CMU) 的研究人員介紹了一項名為StreamingLLM的技術,旨在解決大型語言模型(LLMs)在長時間對話中性能下降的問題。
2. StreamingLLM利用“attention sinks”(關注點匯)的概念,通過在對話的不同階段重新引入初始標記,使LLMs能夠在無限長度的文本上保持高性能。
3. 研究人員還提出了使用單個特殊標記作為“attention sink”來穩定LLMs的關注機制,從而在長時間對話中保持高性能。
微新創想(idea2003.com) 10月8日 消息:Meta、麻省理工學院 (MIT) 和卡內基梅隆大學 (CMU) 的研究人員最近發表的一篇新論文介紹了一項名為StreamingLLM的創新技術,旨在解決大型語言模型(LLMs)在長時間對話中性能下降的問題。
LLMs如OpenAI的ChatGPT和Meta的Llama2在當今的人工智能領域備受關注,但它們都面臨一個共同的挑戰,即在與用戶的對話中始終提供高質量的響應,無論對話持續多長時間或交換的對話數量如何。這是因為LLMs在訓練時是基于特定長度的數據塊或序列進行預訓練的,一旦用戶輸入的標記超過了這個長度,LLM的性能就會下降,這對企業希望在開放式對話中使用LLMs來幫助客戶或員工是不可接受的。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
StreamingLLM的解決方案是利用“attention sinks”概念,這些是在對話的不同階段重新引入初始標記,以使LLMs能夠在無限長度的文本上保持高性能。
研究人員發現,LLMs在對話或訓練的早期會更加關注初始標記,因為它們對所有后續標記可見,而后續標記只對有限的后續標記可見。因此,通過在對話后期重新引入一些初始標記,用戶可以有效地恢復LLM的性能。這就好比通過在對話后期使用與開始對話時相同的關鍵詞,突然使LLMs在對話后期能夠提供高質量的響應。
研究人員還提出了使用單個特殊標記作為“attention sink”的方法,通過在對話的不同階段手動或自動重新引入此標記,可以持續保持LLMs的性能。這項技術使LLMs能夠在無需頻繁刷新緩存的情況下,不間斷地為用戶提供幫助。然而,研究人員也強調了這項技術的局限性,它并不擴展LLMs的上下文窗口,也不能確保LLM會記住對話的每個時刻的內容。
綜合而言,StreamingLLM技術為LLMs在長時間對話中保持高性能提供了創新的解決方案,有望在許多領域,特別是需要持續不斷地與用戶交互的應用中得到廣泛應用。