AIGC動態歡迎閱讀
原標題:英偉達又賺到了!FlashAttention3來了:H100利用率飆升至75%
關鍵字:注意力,矩陣,精度,速度,算法
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:陳陳、小舟740 TFLOPS!迄今最強 FlashAttention 來了。隨著大型語言模型(LLM)加速落地,擴展模型上下文窗口變得越來越重要。然而,Transformer 架構的核心 —— 注意力層的時間復雜度和空間復雜度與輸入序列長度的平方成正比。這使得擴展模型上下文窗口存在挑戰。
2022 年,一種快速、內存高效的注意力算法 ——FlashAttention 問世,該算法無需任何近似即可加速注意力并減少內存占用。
FlashAttention 對注意力計算進行重新排序的算法,并利用 tiling 和重計算來顯著加快計算速度,將內存使用量從序列長度的二次減少到線性。2023 年,研究團隊宣布推出 FlashAttention-2,在算法、并行化和工作分區等方面有了顯著改進。
現在,來自 Meta、英偉達、Together AI 等機構的研究者宣布推出 FlashAttention-3,它采用了加速 Hopper GPU 注意力的三種主要技術:
通過 warp-specialization 重疊整體計算和數據移動;
交錯分塊 matmul 和 softmax
原文鏈接:英偉達又賺到了!FlashAttention3來了:H100利用率飆升至75%
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...