H100利用率飆升至75%!英偉達(dá)親自下場FlashAttention三代升級,比標(biāo)準(zhǔn)注意力快16倍
AIGC動態(tài)歡迎閱讀
原標(biāo)題:H100利用率飆升至75%!英偉達(dá)親自下場FlashAttention三代升級,比標(biāo)準(zhǔn)注意力快16倍
關(guān)鍵字:矩陣,乘法,內(nèi)存,精度,架構(gòu)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
明敏 克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大模型訓(xùn)練推理神作,又更新了!
主流大模型都在用的FlashAttention,剛剛升級第三代。
時隔一年,F(xiàn)lashAttention-3已經(jīng)全方位升級。
訓(xùn)練速度提升1.5-2倍,F(xiàn)P16下計算吞吐量高達(dá)740TFLOPs/s,達(dá)理論最大吞吐量75%,更充分利用計算資源,此前只能做到35%。
FP8下速度接近1.2PFLOPs/s!
同時誤差也進(jìn)一步減小,F(xiàn)P8下的誤差比標(biāo)準(zhǔn)Attention減少2.6倍。
而且這一次,不再是一作Tri Dao單打獨斗,F(xiàn)lashAttention-3直接和英偉達(dá)、Meta、谷歌等合作,針對最強(qiáng)芯片H100專門做優(yōu)化。
英偉達(dá)CUTLASS團(tuán)隊和cuDNN團(tuán)隊,都直接為該研究提供支持。
同時和前作一樣,F(xiàn)lashAttention-3也將開源,PyTorch和Hugging Face中都集成。
作者之一Vijay Thakkar激動表示:
曾經(jīng)在FA2發(fā)布時,我就說過這句話。今天,我想再說一次:
看到CUTLASS和CuTe被用來開讓Tensor Core大顯身手的新算法,真的泰褲辣。
前S
原文鏈接:H100利用率飆升至75%!英偉達(dá)親自下場FlashAttention三代升級,比標(biāo)準(zhǔn)注意力快16倍
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
相關(guān)文章
