AIGC動態歡迎閱讀
原標題:單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源
關鍵字:權重,精度,模型,團隊,微軟
文章來源:量子位
內容字數:4084字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAIFP8和更低的浮點數量化精度,不再是H100的“專利”了!
老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支持的條件下,硬生生在A100上跑起FP6。
測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且擁有比后者更高的精度。
在此基礎之上,還有端到端的大模型支持,目前已經開源并集成到了DeepSpeed等深度學習推理框架中。
這一成果對大模型的加速效果也是立竿見影——在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。
一名機器學習研究人員看了后表示,微軟的這項研究簡直可以用crazy來形容。
表情包也第一時間上線,be like:
英偉達:只有H100支持FP8。
微軟:Fine,我自己搞定。
那么,這個框架到底能實現什么樣的效果,背后又采用了什么樣的技術呢?
用FP6跑Llama,單卡比雙卡還快在A100上使用FP6精度,帶來的是內核級的性能提升。
研究人員選取了不同大小的Llama模型和OPT模型之中的線性層,在NVIDIA A100-40GB G
原文鏈接:單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...