ICML2024高分！魔改注意力，讓小模型能打兩倍大的模型

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：ICML2024高分！魔改注意力，讓小模型能打兩倍大的模型
關(guān)鍵字：注意力,模型,矩陣,動態(tài),回路
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

彩云科技團隊投稿量子位 | 公眾號 QbitAI改進Transformer核心機制注意力，讓小模型能打兩倍大的模型！
ICML 2024高分論文，彩云科技團隊構(gòu)建DCFormer框架，替換Transformer核心組件多頭注意力模塊（MHA），提出可動態(tài)組合的多頭注意力（DCMHA）。
DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定，讓它們可以根據(jù)輸入動態(tài)組合，從根本上提升了模型的表達能力。
可以近似理解為，原來每層有固定的H個注意力頭，現(xiàn)在用幾乎同樣的參數(shù)量和算力，可按需動態(tài)組合出多至HxH個注意力頭。
DCMHA即插即用，可在任何Transformer架構(gòu)中替換MHA，得到通用、高效和可擴展的新架構(gòu)DCFormer。
這項工作由來自北京郵電大學(xué)、AI創(chuàng)業(yè)公司彩云科技的研究人員共同完成。
研究人員用在DCFormer基礎(chǔ)上打造的模型DCPythia-6.9B，在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B。
DCFormer模型在性能上與那些計算量是其1.7-2倍的Transformer模型相當(dāng)。
多頭注意力模塊有何局限？大模型的scaling la

原文鏈接：ICML2024高分！魔改注意力，讓小模型能打兩倍大的模型