用FP8訓(xùn)練大模型有多香?微軟:比BF16快64%,省42%內(nèi)存

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:用FP8訓(xùn)練大模型有多香?微軟:比BF16快64%,省42%內(nèi)存
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8552字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:Panda低精度訓(xùn)練是大模型訓(xùn)練中擴(kuò)展模型大小,節(jié)約訓(xùn)練成本的最關(guān)鍵技術(shù)之一。相比于當(dāng)前的 16 位和 32 位浮點(diǎn)混合精度訓(xùn)練,使用 FP8 8 位浮點(diǎn)混合精度訓(xùn)練能帶來(lái) 2 倍的速度提升,節(jié)省 50% – 75% 的顯存和 50% – 75% 的通信成本,而且英偉達(dá)最新一代卡皇 H100 自帶良好的 FP8 硬件支持。但目前業(yè)界大模型訓(xùn)練框架對(duì) FP8 訓(xùn)練的支持還非常有限。…
原文鏈接:點(diǎn)此閱讀原文:用FP8訓(xùn)練大模型有多香?微軟:比BF16快64%,省42%內(nèi)存
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)