顛覆性Star Attention：英偉達如何實現LLM推理速度的十倍飛躍！

原標題：英偉達提出全新Star Attention，10倍加速LLM推理！登頂Hugging Face論文榜
文章來源：新智元
內容字數：4274字

引言

隨著大模型上下文長度的不斷增加，推理計算成本也隨之上升，導致用戶在輸入問題后需要等待較長時間才能得到結果。為了解決這一問題，英偉達最新提出的Star Attention機制顯著減少了推理計算量，同時保持了模型的精度，尤其適用于邊緣計算場景。

Star Attention的工作原理

Star Attention的推理過程分為兩個階段：首先是上下文編碼階段，在此階段，輸入的上下文被分割成較小的塊，并分配給多個主機處理。每個主機在處理自己的部分時，會存儲非錨點部分的KV緩存。第二階段是查詢編碼和token生成，查詢被廣播到所有主機，查詢主機通過聚合所有主機的統計數據來計算全局注意力。這個方式使得在處理長序列時，信息的獲取更加高效。

性能提升

Star Attention在多個長上下文基準測試上表現出色，推理速度最高可提升11倍。在Llama3.1-70B等大型模型上，推理加速比顯著提升，同時準確率僅降低0至3%。即使在更長的上下文（例如128K和1048K）下，Star Attention依然保持了高水平的準確性和顯著的加速效果。

應用前景

Star Attention的機制可以無縫集成到基于Transformer的大多數LLM中，且不需要額外的模型微調。這項技術的推出，將使得在本地設備上處理更長序列變得更加可行，同時大幅降低了內存需求。未來的研究將探索將Star Attention擴展到更長的序列和更大的模型，以進一步提高性能和可擴展性。

結論

總的來說，Star Attention為希望開發和部署本地大模型的廠商提供了一種重要技術。它不僅能加快用戶響應速度，還能在有限的內存中處理更長的文本，提升RAG任務的效率。同時，對于云端大模型提供商來說，Star Attention可以顯著降低推理成本，減少能源消費，從而實現更高效的模型運作。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # HuggingFace # LLM推理 # StarAttention # 人工智能 # 英偉達

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

顛覆性Star Attention：英偉達如何實現LLM推理速度的十倍飛躍！

引言

Star Attention的工作原理

性能提升

應用前景

結論

聯系作者

AI革命來襲！OpenAI連續12天重磅發布，Sora與滿血o1或將顛覆行業格局！

谷歌世界模型爆發：單張圖生成可玩3D世界，還要和馬斯克一起做AI游戲

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點