無問芯穹提出混合稀疏注意力方案MoA，加速長文本生成，實現(xiàn)最高8倍吞吐率提升

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標題：無問芯穹提出混合稀疏注意力方案MoA，加速長文本生成，實現(xiàn)最高8倍吞吐率提升
關(guān)鍵字：注意力,跨度,模型,長度,上下文
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

機器之心發(fā)布
機器之心編輯部隨著大語言模型在長文本場景下的需求不斷涌現(xiàn)，其核心的注意力機制（Attention Mechanism）也獲得了非常多的關(guān)注。
注意力機制會計算一定跨度內(nèi)輸入文本（令牌，Token）之間的交互，從而實現(xiàn)對上下文的理解。隨著應(yīng)用的發(fā)展，高效處理更長輸入的需求也隨之增長 [1][2]，這帶來了計算代價的挑戰(zhàn)：注意力高昂的計算成本和不斷增長的鍵值緩存（KV-Cache）代價。稀疏注意力機制可以有效緩解內(nèi)存和吞吐量的挑戰(zhàn)。
然而，現(xiàn)有稀疏注意力通常采用統(tǒng)一的稀疏注意力模式，即對不同的注意力頭和輸入長度應(yīng)用相同的稀疏模式。這種統(tǒng)一的方法難以捕捉到大語言模型中多樣的注意力模式，導(dǎo)致不同注意力頭的不同的精度 – 代價權(quán)衡被忽略。
最近，來自清華大學(xué)、無問芯穹和上海交通大學(xué)的研究團隊發(fā)表了《MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression》，提出通過混合不同稀疏度的注意力頭，使用 25% 的注意力稠密度，就可以記憶幾乎 100% 的上下文。
本工作現(xiàn)已開源，歡迎交流

原文鏈接：無問芯穹提出混合稀疏注意力方案MoA，加速長文本生成，實現(xiàn)最高8倍吞吐率提升