H100利用率飆升至75%！英偉達(dá)親自下場FlashAttention三代升級，比標(biāo)準(zhǔn)注意力快16倍

AIGC動態(tài)歡迎閱讀

原標(biāo)題：H100利用率飆升至75%！英偉達(dá)親自下場FlashAttention三代升級，比標(biāo)準(zhǔn)注意力快16倍
關(guān)鍵字：矩陣,乘法,內(nèi)存,精度,架構(gòu)
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

明敏克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI大模型訓(xùn)練推理神作，又更新了！
主流大模型都在用的FlashAttention，剛剛升級第三代。
時隔一年，F(xiàn)lashAttention-3已經(jīng)全方位升級。
訓(xùn)練速度提升1.5-2倍，F(xiàn)P16下計算吞吐量高達(dá)740TFLOPs/s，達(dá)理論最大吞吐量75%，更充分利用計算資源，此前只能做到35%。
FP8下速度接近1.2PFLOPs/s！
同時誤差也進(jìn)一步減小，F(xiàn)P8下的誤差比標(biāo)準(zhǔn)Attention減少2.6倍。
而且這一次，不再是一作Tri Dao單打獨斗，F(xiàn)lashAttention-3直接和英偉達(dá)、Meta、谷歌等合作，針對最強(qiáng)芯片H100專門做優(yōu)化。
英偉達(dá)CUTLASS團(tuán)隊和cuDNN團(tuán)隊，都直接為該研究提供支持。
同時和前作一樣，F(xiàn)lashAttention-3也將開源，PyTorch和Hugging Face中都集成。
作者之一Vijay Thakkar激動表示：
曾經(jīng)在FA2發(fā)布時，我就說過這句話。今天，我想再說一次：
看到CUTLASS和CuTe被用來開讓Tensor Core大顯身手的新算法，真的泰褲辣。
前S

原文鏈接：H100利用率飆升至75%！英偉達(dá)親自下場FlashAttention三代升級，比標(biāo)準(zhǔn)注意力快16倍