AIGC動態歡迎閱讀
原標題:Mamba一作再祭神作,H100利用率飆至75%!FlashAttention三代性能翻倍,比標準注意力快16倍
關鍵字:矩陣,注意力,乘法,速度,性能
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部
【新智元導讀】時隔一年,FlashAttention又推出了第三代更新,專門針對H100 GPU的新特性進行優化,在之前的基礎上又實現了1.5~2倍的速度提升。FlashAttention又有后續了!
去年7月,FlashAttention-2發布,相比第一代實現了2倍的速度提升,比PyTorch上的標準注意力操作快5~9倍,達到A100上理論最大FLOPS的50~73%,實際訓練速度可達225 TFLOPS(模型FLOPs利用率為72%)。
然而,去年發布FlashAttenion-2尚未運用到硬件中的最新功能,在H100上僅實現了理論最大FLOPS 35%的利用率。
時隔一年,FlashAttention-3歸來,將H100的FLOP利用率再次拉到75%,相比第二代又實現了1.5~2倍的速度提升,在H100上的速度達到740 TFLOPS。
論文地址:https://tridao.me/publications/flash3/flash3.pdf
值得一提的是,FlashAttention v1和v2的第一作者也是Mamba的共同一作,普林斯頓大學助理教授
原文鏈接:Mamba一作再祭神作,H100利用率飆至75%!FlashAttention三代性能翻倍,比標準注意力快16倍
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。