Mamba一作再祭神作，H100利用率飆至75%！FlashAttention三代性能翻倍，比標準注意力快16倍

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：Mamba一作再祭神作，H100利用率飆至75%！FlashAttention三代性能翻倍，比標準注意力快16倍
關鍵字：矩陣,注意力,乘法,速度,性能
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：編輯部
【新智元導讀】時隔一年，FlashAttention又推出了第三代更新，專門針對H100 GPU的新特性進行優化，在之前的基礎上又實現了1.5～2倍的速度提升。FlashAttention又有后續了！
去年7月，FlashAttention-2發布，相比第一代實現了2倍的速度提升，比PyTorch上的標準注意力操作快5～9倍，達到A100上理論最大FLOPS的50～73%，實際訓練速度可達225 TFLOPS（模型FLOPs利用率為72%）。
然而，去年發布FlashAttenion-2尚未運用到硬件中的最新功能，在H100上僅實現了理論最大FLOPS 35%的利用率。
時隔一年，FlashAttention-3歸來，將H100的FLOP利用率再次拉到75%，相比第二代又實現了1.5～2倍的速度提升，在H100上的速度達到740 TFLOPS。
論文地址：https://tridao.me/publications/flash3/flash3.pdf
值得一提的是，FlashAttention v1和v2的第一作者也是Mamba的共同一作，普林斯頓大學助理教授

原文鏈接：Mamba一作再祭神作，H100利用率飆至75%！FlashAttention三代性能翻倍，比標準注意力快16倍