AIGC動態歡迎閱讀
原標題:ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
關鍵字:注意力,模型,矩陣,動態,回路
文章來源:量子位
內容字數:0字
內容摘要:
彩云科技團隊 投稿量子位 | 公眾號 QbitAI改進Transformer核心機制注意力,讓小模型能打兩倍大的模型!
ICML 2024高分論文,彩云科技團隊構建DCFormer框架,替換Transformer核心組件多頭注意力模塊(MHA),提出可動態組合的多頭注意力(DCMHA)。
DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力。
可以近似理解為,原來每層有固定的H個注意力頭,現在用幾乎同樣的參數量和算力,可按需動態組合出多至HxH個注意力頭。
DCMHA即插即用,可在任何Transformer架構中替換MHA,得到通用、高效和可擴展的新架構DCFormer。
這項工作由來自北京郵電大學、AI創業公司彩云科技的研究人員共同完成。
研究人員用在DCFormer基礎上打造的模型DCPythia-6.9B,在預訓練困惑度和下游任務評估上都優于開源Pythia-12B。
DCFormer模型在性能上與那些計算量是其1.7-2倍的Transformer模型相當。
多頭注意力模塊有何局限?大模型的scaling la
原文鏈接:ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...