單卡跑Llama 70B快過雙卡，微軟硬生生把FP6搞到了A100里 | 開源

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：?jiǎn)慰ㄅ躄lama 70B快過雙卡，微軟硬生生把FP6搞到了A100里 | 開源
關(guān)鍵字：權(quán)重,精度,模型,團(tuán)隊(duì),微軟
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4084字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAIFP8和更低的浮點(diǎn)數(shù)量化精度，不再是H100的“專利”了！
老黃想讓大家用INT8/INT4，微軟DeepSpeed團(tuán)隊(duì)在沒有英偉達(dá)官方支持的條件下，硬生生在A100上跑起FP6。
測(cè)試結(jié)果表明，新方法TC-FPx在A100上的FP6量化，速度接近甚至偶爾超過INT4，而且擁有比后者更高的精度。
在此基礎(chǔ)之上，還有端到端的大模型支持，目前已經(jīng)開源并集成到了DeepSpeed等深度學(xué)習(xí)推理框架中。
這一成果對(duì)大模型的加速效果也是立竿見影——在這種框架下用單卡跑Llama，吞吐量比雙卡還要高2.65倍。
一名機(jī)器學(xué)習(xí)研究人員看了后表示，微軟的這項(xiàng)研究簡(jiǎn)直可以用crazy來形容。
表情包也第一時(shí)間上線，be like：
英偉達(dá)：只有H100支持FP8。
微軟：Fine，我自己搞定。
那么，這個(gè)框架到底能實(shí)現(xiàn)什么樣的效果，背后又采用了什么樣的技術(shù)呢？
用FP6跑Llama，單卡比雙卡還快在A100上使用FP6精度，帶來的是內(nèi)核級(jí)的性能提升。
研究人員選取了不同大小的Llama模型和OPT模型之中的線性層，在NVIDIA A100-40GB G

原文鏈接：單卡跑Llama 70B快過雙卡，微軟硬生生把FP6搞到了A100里 | 開源