TokenSwift

TokenSwift – 超長文本生成加速框架，90分鐘內生成10萬Token文本

TokenSwift是一款由北京通用人工智能研究院團隊開發的超長文本生成加速框架，其強大的功能使得在90分鐘內生成10萬Token的文本成為可能。與傳統自回歸模型需要近5小時的生成時間相比，TokenSwift的速度提升達到了三倍，同時不損失生成質量。得益于多Token生成與復用、動態KV緩存更新和上下文懲罰機制等先進技術，TokenSwift有效減少了模型加載延遲，優化了緩存更新時間，確保了生成文本的多樣性。

TokenSwift是什么

TokenSwift 是北京通用人工智能研究院團隊推出的超長文本生成加速框架，能夠在90分鐘內生成10萬Token的文本。相比傳統自回歸模型的近5小時，TokenSwift的速度提升達到了三倍，同時保持了生成質量的無損。該框架利用多Token生成與Token重用、動態KV緩存更新以及上下文懲罰機制等技術，顯著降低了模型加載延遲，優化了緩存更新時間，并確保生成文本的多樣性。它支持多種規模和架構的模型，包括1.5B、7B、8B、14B的多頭注意力（MHA）和分組查詢注意力（GQA）模型。

TokenSwift

TokenSwift的主要功能

加速超長文本生成：TokenSwift可以顯著縮短超長文本的生成時間，傳統自回歸模型生成10萬Token的文本可能需要近5個小時，而TokenSwift僅需90分鐘，效率提高了300%。
保持生成質量：在加速生成的同時，TokenSwift確保了文本輸出的質量和多樣性，原始模型的輸出質量得以保留。
兼容多種模型：TokenSwift支持不同規模和架構的多種模型，包括1.5B、7B、8B和14B的模型，以及多頭注意力（MHA）和分組查詢注意力（GQA）架構。

TokenSwift的技術原理

多Token并行生成與復用：TokenSwift借鑒了Medusa等先進方法，引入額外的線性層，使得模型能夠在一次前向傳播中同時生成多個草稿Token。系統基于生成文本中的n-gram頻率信息，自動檢索并復用高頻短語，從而減少模型的重新加載次數，提高整體效率。
動態KV緩存管理策略：TokenSwift在KV緩存管理方面采用動態更新策略，生成過程中保留初始KV緩存，并根據Token的重要性對后續緩存進行有序替換。
樹結構的多候選Token驗證：為確保生成結果與目標模型預測的一致性，TokenSwift引入了樹形注意力機制。通過構建包含多個候選Token組合的樹形結構，采用并行驗證的方式，從中隨機選擇最長且有效的n-gram作為最終輸出，確保生成過程的無損性和多樣性。
上下文懲罰機制：為了進一步減少重復生成現象，TokenSwift設計了一種上下文懲罰方法。在生成過程中對近期生成的Token施加懲罰，使得模型在選擇下一Token時更傾向于多樣化輸出，有效降低重復現象的發生。

TokenSwift的項目地址

項目官網：https://bigai-nlco.github.io/TokenSwift/
Github倉庫：https://github.com/bigai-nlco/TokenSwift
HuggingFace模型庫：https://huggingface.co/TokenSwift
arXiv技術論文：https://arxiv.org/pdf/2502.18890

TokenSwift的應用場景

內容創作與文案生成：TokenSwift在短時間內生成高質量文本內容，非常適合內容創作者、廣告公司和媒體機構，顯著提高工作效率。
智能客服與機器人：在智能客服和機器人應用中，TokenSwift能迅速生成詳盡的回答，尤其在處理復雜問題或提供長篇解釋時，能帶來更高效、更連貫的對話體驗。
學術研究與論文撰寫：對于學術研究和論文撰寫，TokenSwift能幫助研究人員快速生成文獻綜述、實驗報告或論文草稿，節省大量時間和精力。
代碼生成與編程輔助：在編程領域，TokenSwift可用于生成復雜的代碼片段或文檔，幫助開發者迅速構建和優化代碼。

閱讀原文