原標題:英偉達提出全新Star Attention,10倍加速LLM推理!登頂Hugging Face論文榜
文章來源:新智元
內容字數:4274字
引言
隨著大模型上下文長度的不斷增加,推理計算成本也隨之上升,導致用戶在輸入問題后需要等待較長時間才能得到結果。為了解決這一問題,英偉達最新提出的Star Attention機制顯著減少了推理計算量,同時保持了模型的精度,尤其適用于邊緣計算場景。
Star Attention的工作原理
Star Attention的推理過程分為兩個階段:首先是上下文編碼階段,在此階段,輸入的上下文被分割成較小的塊,并分配給多個主機處理。每個主機在處理自己的部分時,會存儲非錨點部分的KV緩存。第二階段是查詢編碼和token生成,查詢被廣播到所有主機,查詢主機通過聚合所有主機的統計數據來計算全局注意力。這個方式使得在處理長序列時,信息的獲取更加高效。
性能提升
Star Attention在多個長上下文基準測試上表現出色,推理速度最高可提升11倍。在Llama3.1-70B等大型模型上,推理加速比顯著提升,同時準確率僅降低0至3%。即使在更長的上下文(例如128K和1048K)下,Star Attention依然保持了高水平的準確性和顯著的加速效果。
應用前景
Star Attention的機制可以無縫集成到基于Transformer的大多數LLM中,且不需要額外的模型微調。這項技術的推出,將使得在本地設備上處理更長序列變得更加可行,同時大幅降低了內存需求。未來的研究將探索將Star Attention擴展到更長的序列和更大的模型,以進一步提高性能和可擴展性。
結論
總的來說,Star Attention為希望開發和部署本地大模型的廠商提供了一種重要技術。它不僅能加快用戶響應速度,還能在有限的內存中處理更長的文本,提升RAG任務的效率。同時,對于云端大模型提供商來說,Star Attention可以顯著降低推理成本,減少能源消費,從而實現更高效的模型運作。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。