ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
關(guān)鍵字:注意力,模型,矩陣,動態(tài),回路
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
彩云科技團隊 投稿量子位 | 公眾號 QbitAI改進Transformer核心機制注意力,讓小模型能打兩倍大的模型!
ICML 2024高分論文,彩云科技團隊構(gòu)建DCFormer框架,替換Transformer核心組件多頭注意力模塊(MHA),提出可動態(tài)組合的多頭注意力(DCMHA)。
DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達能力。
可以近似理解為,原來每層有固定的H個注意力頭,現(xiàn)在用幾乎同樣的參數(shù)量和算力,可按需動態(tài)組合出多至HxH個注意力頭。
DCMHA即插即用,可在任何Transformer架構(gòu)中替換MHA,得到通用、高效和可擴展的新架構(gòu)DCFormer。
這項工作由來自北京郵電大學(xué)、AI創(chuàng)業(yè)公司彩云科技的研究人員共同完成。
研究人員用在DCFormer基礎(chǔ)上打造的模型DCPythia-6.9B,在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B。
DCFormer模型在性能上與那些計算量是其1.7-2倍的Transformer模型相當(dāng)。
多頭注意力模塊有何局限?大模型的scaling la
原文鏈接:ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
