<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        AIGC動態9個月前發布 量子位
        344 0 0

        30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        AIGC動態歡迎閱讀

        原標題:30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多
        關鍵字:注意力,能量,梯度,函數,拓撲
        文章來源:量子位
        內容字數:0字

        內容摘要:


        夢晨 發自 凹非寺量子位 | 公眾號 QbitAI跨GPU的注意力并行,最高提速8倍,支持512萬序列長度推理。
        環注意力(Ring Attention)后繼者——樹注意力(Tree Attention)來了。
        最關鍵之處在于,通信步數隨設備數量成對數增長,而不是線性增長。
        換句話說,樹注意力的優勢隨著設備數量增大會更加明顯。實驗中,在128卡、512萬序列長度設置時達到最高8倍加速。
        與環注意力相比,峰值內存占用也能節省不少。
        相關代碼已經開源,基于谷歌jax框架,已和Flash Attention整合,實現起來只需要30行代碼。
        論文一公布,就被業界評價為“對高推理需求的大型公司很重要”。
        這下和黃仁勛的GPU“買的越多,省的越多”論對上了,英偉達再次贏麻。
        注意力機制的能量視角首先簡單回顧一下這次被拿來對比的環注意力,由UC伯克利大牛Pieter Abeel團隊提出。
        環注意力被認為是讓上一波大模型紛紛擴展到百萬上下文的關鍵,從谷歌Gemini 1.5到后來的Llama 3.1系列都用了它的某種變體。
        簡單來說,環注意力的核心思想是將長序列分成多個Block,每個GPU處理一個。


        原文鏈接:30行代碼,500萬長文本推理提速8倍!「樹注意力」讓GPU越多省的越多

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲视频在线观看免费视频| 免费看搞黄视频网站| 手机看黄av免费网址| 亚洲系列中文字幕| 2020因为爱你带字幕免费观看全集 | 亚洲精品9999久久久久无码| 性生交片免费无码看人| 中文字幕 亚洲 有码 在线| 97视频免费在线| 学生妹亚洲一区二区| 精品国产精品久久一区免费式| 亚洲乱色熟女一区二区三区蜜臀| 日本特黄特色免费大片| 亚洲AV永久无码精品放毛片| 免费日韩在线视频| 久久国产美女免费观看精品| 亚洲AV人无码激艳猛片| 色影音免费色资源| 亚洲欧美在线x视频| 中文字幕亚洲综合久久菠萝蜜 | 精品无码人妻一区二区免费蜜桃 | 一个人免费播放在线视频看片| 亚洲色精品aⅴ一区区三区| 国产精品视频白浆免费视频| 亚洲国产精品久久丫| 蜜臀91精品国产免费观看| 精品在线视频免费| 亚洲AV永久纯肉无码精品动漫| av免费不卡国产观看| 在线观看亚洲免费视频| 亚洲国产成人高清在线观看| www.999精品视频观看免费| 免费一级全黄少妇性色生活片 | 久久青青草原亚洲AV无码麻豆| 黄色网址免费观看| 国产亚洲福利一区二区免费看 | 亚洲AV无码AV日韩AV网站| 亚洲日韩国产精品第一页一区| 999国内精品永久免费观看| 免费国产va在线观看| 亚洲精品91在线|