單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:?jiǎn)慰ㄅ躄lama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源
關(guān)鍵字:權(quán)重,精度,模型,團(tuán)隊(duì),微軟
文章來源:量子位
內(nèi)容字?jǐn)?shù):4084字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIFP8和更低的浮點(diǎn)數(shù)量化精度,不再是H100的“專利”了!
老黃想讓大家用INT8/INT4,微軟DeepSpeed團(tuán)隊(duì)在沒有英偉達(dá)官方支持的條件下,硬生生在A100上跑起FP6。
測(cè)試結(jié)果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且擁有比后者更高的精度。
在此基礎(chǔ)之上,還有端到端的大模型支持,目前已經(jīng)開源并集成到了DeepSpeed等深度學(xué)習(xí)推理框架中。
這一成果對(duì)大模型的加速效果也是立竿見影——在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。
一名機(jī)器學(xué)習(xí)研究人員看了后表示,微軟的這項(xiàng)研究簡(jiǎn)直可以用crazy來形容。
表情包也第一時(shí)間上線,be like:
英偉達(dá):只有H100支持FP8。
微軟:Fine,我自己搞定。
那么,這個(gè)框架到底能實(shí)現(xiàn)什么樣的效果,背后又采用了什么樣的技術(shù)呢?
用FP6跑Llama,單卡比雙卡還快在A100上使用FP6精度,帶來的是內(nèi)核級(jí)的性能提升。
研究人員選取了不同大小的Llama模型和OPT模型之中的線性層,在NVIDIA A100-40GB G
原文鏈接:單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破