<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        AIGC動態(tài)1年前 (2024)發(fā)布 量子位
        348 0 0

        30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        AIGC動態(tài)歡迎閱讀

        原標題:30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多
        關鍵字:注意力,能量,梯度,函數(shù),拓撲
        文章來源:量子位
        內容字數(shù):0字

        內容摘要:


        夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI跨GPU的注意力并行,最高提速8倍,支持512萬序列長度推理。
        環(huán)注意力(Ring Attention)后繼者——樹注意力(Tree Attention)來了。
        最關鍵之處在于,通信步數(shù)隨設備數(shù)量成對數(shù)增長,而不是線性增長。
        換句話說,樹注意力的優(yōu)勢隨著設備數(shù)量增大會更加明顯。實驗中,在128卡、512萬序列長度設置時達到最高8倍加速。
        與環(huán)注意力相比,峰值內存占用也能節(jié)省不少。
        相關代碼已經開源,基于谷歌jax框架,已和Flash Attention整合,實現(xiàn)起來只需要30行代碼。
        論文一公布,就被業(yè)界評價為“對高推理需求的大型公司很重要”。
        這下和黃仁勛的GPU“買的越多,省的越多”論對上了,英偉達再次贏麻。
        注意力機制的能量視角首先簡單回顧一下這次被拿來對比的環(huán)注意力,由UC伯克利大牛Pieter Abeel團隊提出。
        環(huán)注意力被認為是讓上一波大模型紛紛擴展到百萬上下文的關鍵,從谷歌Gemini 1.5到后來的Llama 3.1系列都用了它的某種變體。
        簡單來說,環(huán)注意力的核心思想是將長序列分成多個Block,每個GPU處理一個。


        原文鏈接:30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數(shù)字人

        相關文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 国产免费的野战视频| xxxxx做受大片视频免费| 1000部拍拍拍18勿入免费凤凰福利| 中文字幕专区在线亚洲| 免费精品久久久久久中文字幕| 丁香花免费高清视频完整版| 亚洲人成人77777网站不卡 | 亚洲高清日韩精品第一区| 无码午夜成人1000部免费视频| 亚洲AV无码成人精品区天堂| 99久久精品免费精品国产| 亚洲国产精品白丝在线观看| 免费A级毛片无码免费视| 亚洲欧美一区二区三区日产| 国产三级免费电影| 中文字幕不卡免费视频| 亚洲日韩图片专区第1页| 91精品免费在线观看| 亚洲人成色4444在线观看| 四虎永久成人免费| 你是我的城池营垒免费看| 精品久久洲久久久久护士免费 | 亚洲精品在线免费观看| 国产精品免费观看久久| 国产成人高清亚洲一区91| 亚洲一级特黄大片在线观看| a毛片在线还看免费网站| 亚洲一级在线观看| 国产jizzjizz免费视频| 人妻在线日韩免费视频| 亚洲伊人久久大香线蕉在观 | 亚洲国产婷婷香蕉久久久久久| 国产在线国偷精品免费看| 亚洲色av性色在线观无码| 成年人性生活免费视频| 久久99精品免费一区二区| 亚洲精品美女视频| 亚洲精品国产精品乱码不卡| 97免费人妻在线视频| 成人婷婷网色偷偷亚洲男人的天堂 | 99精品视频免费在线观看|