<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源

        AIGC動態1年前 (2024)發布 量子位
        554 0 0

        單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源

        AIGC動態歡迎閱讀

        原標題:單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源
        關鍵字:權重,精度,模型,團隊,微軟
        文章來源:量子位
        內容字數:4084字

        內容摘要:


        克雷西 發自 凹非寺量子位 | 公眾號 QbitAIFP8和更低的浮點數量化精度,不再是H100的“專利”了!
        老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支持的條件下,硬生生在A100上跑起FP6。
        測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且擁有比后者更高的精度。
        在此基礎之上,還有端到端的大模型支持,目前已經開源并集成到了DeepSpeed等深度學習推理框架中。
        這一成果對大模型的加速效果也是立竿見影——在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。
        一名機器學習研究人員看了后表示,微軟的這項研究簡直可以用crazy來形容。
        表情包也第一時間上線,be like:
        英偉達:只有H100支持FP8。
        微軟:Fine,我自己搞定。
        那么,這個框架到底能實現什么樣的效果,背后又采用了什么樣的技術呢?
        用FP6跑Llama,單卡比雙卡還快在A100上使用FP6精度,帶來的是內核級的性能提升。
        研究人員選取了不同大小的Llama模型和OPT模型之中的線性層,在NVIDIA A100-40GB G


        原文鏈接:單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV综合色区无码二区爱AV| 夜夜春亚洲嫩草影院| 亚洲美女视频一区二区三区| 成全在线观看免费观看大全 | 久久久久久国产精品免费免费| 亚洲国产女人aaa毛片在线| 久久精品无码精品免费专区| 亚洲AV乱码一区二区三区林ゆな | 97性无码区免费| 亚洲熟妇无码一区二区三区导航| 在线免费视频一区| 精品在线观看免费| 亚洲美女又黄又爽在线观看| 99久久人妻精品免费二区| 亚洲电影在线免费观看| 四虎成人免费网址在线| 无码AV动漫精品一区二区免费| 久久亚洲欧洲国产综合| 一级毛片不卡片免费观看| 亚洲一区二区三区高清视频| 好吊妞在线新免费视频| 特黄特色的大片观看免费视频| 亚洲热线99精品视频| 4虎1515hh永久免费| 一本天堂ⅴ无码亚洲道久久| 亚洲精品偷拍视频免费观看 | 一个人看的www在线观看免费| 亚洲国产精品网站在线播放 | 一本久久综合亚洲鲁鲁五月天| 在线免费观看h片| 亚洲免费黄色网址| 亚洲精品国产日韩无码AV永久免费网| 伊人免费在线观看高清版| 亚洲欧洲日韩在线电影| www亚洲精品少妇裸乳一区二区 | 美女裸身网站免费看免费网站| 亚洲欧美在线x视频| 亚洲精品国偷自产在线| 久久这里只有精品国产免费10| 美女无遮挡拍拍拍免费视频| 33333在线亚洲|