AIGC動態歡迎閱讀
原標題:北大發現了一種特殊類型的注意力頭!
關鍵字:模型,屏蔽,研究人員,幻覺,上下文
文章來源:夕小瑤科技說
內容字數:5520字
內容摘要:
夕小瑤科技說 原創作者 | 任同學檢索頭的發現或許將有力地幫助大模型領域在提高長上下文推理能力、減少幻覺和壓縮KV緩存方面的研究。
從 Claude100K 到 Gemini10M,我們正處于長上下文語言模型的時代。如何在長上下文中利用任何輸入位置的信息?北大聯合另外四所高校發現了一種特殊類型的、負責從長上下文中進行檢索的注意力頭。
研究人員對4個模型族、6個模型尺度和3種微調類型的系統調查表明,存在一種特殊類型的注意力頭(稱之為檢索頭),它主要負責從長上下文中檢索相關信息。
研究人員發現了檢索頭具有一些重要和有趣的性質:
通用性:所有具有長上下文能力的探索模型都有一組檢索頭;
稀疏性:只有一小部分(小于5%)的注意頭是檢索頭;
內在性:檢索頭在短上下文預訓練的模型中已經存在。當將上下文長度擴展到32-128K時,仍然是同一組注意力頭執行信息檢索;
動態激活:以 Llama-27B 為例,無論上下文如何變化,12個檢索頭始終關注所需信息。其余的檢索頭在不同的環境中被激活;
因果關系:完全修剪檢索頭導致檢索相關信息失敗,產生幻覺,而修剪隨機的非檢索頭不影響模型的檢索能力。
由于檢索頭用于
原文鏈接:北大發現了一種特殊類型的注意力頭!
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...