人大高瓴提出“注意力波”方法，70 億參數 Llama 比肩 GPT-4

AIGC動態1年前 (2023)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：人大高瓴提出“注意力波”方法，70 億參數 Llama 比肩 GPT-4
關鍵字：位置,上下文,注意力,模型,性能
文章來源：夕小瑤科技說
內容字數：8250字

內容摘要：

夕小瑤科技說原創作者 | 智商掉了一地、python最近，隨著大型語言模型（LLM）在人機交互、多模態任務和語言應用等領域的廣泛應用，研究者們紛紛致力于提升這些模型在處理復雜上下文時的性能。
來自人大高瓴的作者以一種新的視角出發，著眼于注意力機制在上下文中不同位置的關注程度，就好像木桶里的水在不同木板上停留或流動一樣。作者將模型在每個角度基準處對上下文中特定位置的有限認知比作木桶上的較短木板，這些木板的長度不同反映了模型對不同位置的關注程度。形象地說，一個位置的注意力波可能表現為槽，而另一個位置可能表現為峰，就像木桶中的較長木板彌補了較短木板的缺陷。
為了解決語言模型在處理復雜上下文時的局限性，作者提出了 Attention Buckets 這一概念，旨在通過不同角度的處理方式來彌補注意力機制的局限性，從而提高對多個上下文位置的關注，使得模型能夠更全面、更靈活地理解和處理復雜的上下文信息，降低 LLM 錯過注意力槽內關鍵信息的風險。在實驗中，甚至當 Attention Buckets 與 DFSDT-Retriever 設置配對時，不僅與 GPT-4 的性能水平相匹配，而且在許多情況

原文鏈接：人大高瓴提出“注意力波”方法，70 億參數 Llama 比肩 GPT-4