AIGC動態歡迎閱讀
原標題:H100利用率飆升至75%!英偉達親自下場FlashAttention三代升級,比標準注意力快16倍
關鍵字:矩陣,乘法,內存,精度,架構
文章來源:量子位
內容字數:0字
內容摘要:
明敏 克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大模型訓練推理神作,又更新了!
主流大模型都在用的FlashAttention,剛剛升級第三代。
時隔一年,FlashAttention-3已經全方位升級。
訓練速度提升1.5-2倍,FP16下計算吞吐量高達740TFLOPs/s,達理論最大吞吐量75%,更充分利用計算資源,此前只能做到35%。
FP8下速度接近1.2PFLOPs/s!
同時誤差也進一步減小,FP8下的誤差比標準Attention減少2.6倍。
而且這一次,不再是一作Tri Dao單打獨斗,FlashAttention-3直接和英偉達、Meta、谷歌等合作,針對最強芯片H100專門做優化。
英偉達CUTLASS團隊和cuDNN團隊,都直接為該研究提供支持。
同時和前作一樣,FlashAttention-3也將開源,PyTorch和Hugging Face中都集成。
作者之一Vijay Thakkar激動表示:
曾經在FA2發布時,我就說過這句話。今天,我想再說一次:
看到CUTLASS和CuTe被用來開讓Tensor Core大顯身手的新算法,真的泰褲辣。
前S
原文鏈接:H100利用率飆升至75%!英偉達親自下場FlashAttention三代升級,比標準注意力快16倍
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...