英偉達又賺到了!FlashAttention3來了:H100利用率飆升至75%

AIGC動態(tài)歡迎閱讀
原標題:英偉達又賺到了!FlashAttention3來了:H100利用率飆升至75%
關(guān)鍵字:注意力,矩陣,精度,速度,算法
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
編輯:陳陳、小舟740 TFLOPS!迄今最強 FlashAttention 來了。隨著大型語言模型(LLM)加速落地,擴展模型上下文窗口變得越來越重要。然而,Transformer 架構(gòu)的核心 —— 注意力層的時間復(fù)雜度和空間復(fù)雜度與輸入序列長度的平方成正比。這使得擴展模型上下文窗口存在挑戰(zhàn)。
2022 年,一種快速、內(nèi)存高效的注意力算法 ——FlashAttention 問世,該算法無需任何近似即可加速注意力并減少內(nèi)存占用。
FlashAttention 對注意力計算進行重新排序的算法,并利用 tiling 和重計算來顯著加快計算速度,將內(nèi)存使用量從序列長度的二次減少到線性。2023 年,研究團隊宣布推出 FlashAttention-2,在算法、并行化和工作分區(qū)等方面有了顯著改進。
現(xiàn)在,來自 Meta、英偉達、Together AI 等機構(gòu)的研究者宣布推出 FlashAttention-3,它采用了加速 Hopper GPU 注意力的三種主要技術(shù):
通過 warp-specialization 重疊整體計算和數(shù)據(jù)移動;
交錯分塊 matmul 和 softmax
原文鏈接:英偉達又賺到了!FlashAttention3來了:H100利用率飆升至75%
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號