<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

        AIGC動態(tài)1年前 (2024)發(fā)布 量子位
        469 0 0

        ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

        AIGC動態(tài)歡迎閱讀

        原標(biāo)題:ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
        關(guān)鍵字:注意力,模型,矩陣,動態(tài),回路
        文章來源:量子位
        內(nèi)容字數(shù):0字

        內(nèi)容摘要:


        彩云科技團隊 投稿量子位 | 公眾號 QbitAI改進Transformer核心機制注意力,讓小模型能打兩倍大的模型!
        ICML 2024高分論文,彩云科技團隊構(gòu)建DCFormer框架,替換Transformer核心組件多頭注意力模塊(MHA),提出可動態(tài)組合的多頭注意力(DCMHA)。
        DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達能力。
        可以近似理解為,原來每層有固定的H個注意力頭,現(xiàn)在用幾乎同樣的參數(shù)量和算力,可按需動態(tài)組合出多至HxH個注意力頭。
        DCMHA即插即用,可在任何Transformer架構(gòu)中替換MHA,得到通用、高效和可擴展的新架構(gòu)DCFormer。
        這項工作由來自北京郵電大學(xué)、AI創(chuàng)業(yè)公司彩云科技的研究人員共同完成。
        研究人員用在DCFormer基礎(chǔ)上打造的模型DCPythia-6.9B,在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B。
        DCFormer模型在性能上與那些計算量是其1.7-2倍的Transformer模型相當(dāng)。
        多頭注意力模塊有何局限?大模型的scaling la


        原文鏈接:ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

        聯(lián)系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一级高清在线中文字幕| 五月婷婷在线免费观看| 暖暖日本免费在线视频| 亚洲国产情侣一区二区三区| 亚洲免费在线视频播放| 亚洲伊人久久大香线蕉影院| 99久久久精品免费观看国产 | 国产福利免费视频| 无码专区一va亚洲v专区在线 | 无码乱肉视频免费大全合集| 99久久亚洲综合精品成人网| 精品香蕉在线观看免费| 亚洲视频在线观看免费视频| 免费国产作爱视频网站| 亚洲午夜精品一区二区麻豆| 在线视频免费国产成人| 一级一片免费视频播放| 亚洲国产精品无码AAA片| 精品一区二区三区免费毛片爱| 四虎永久在线观看免费网站网址| 国产a不卡片精品免费观看| 精品一区二区三区无码免费直播| 亚洲国产女人aaa毛片在线| 99久久免费国产精精品| 亚洲日本中文字幕| 久久久久国色AV免费看图片 | 亚洲欧洲中文日产| 毛片免费观看视频| 女人裸身j部免费视频无遮挡| 美女黄频免费网站| 亚洲av日韩片在线观看| 成在人线av无码免费高潮喷水| 国产一区二区免费在线| 色婷婷综合缴情综免费观看| 久久精品夜色国产亚洲av| 曰曰鲁夜夜免费播放视频| 九九久久国产精品免费热6| 久久亚洲精品中文字幕| 免费黄色app网站| 久久久久免费精品国产| 亚洲欧美日韩国产精品一区|