TokenFD – 上海交大聯合美團推出的細粒度圖文對齊基礎模型
TokenFD是由上海交通大學與美團合作開發的一款先進的細粒度圖文對齊基礎模型,專注于文檔理解任務。該模型通過Token級對齊技術實現了圖像Token與語言Token在統一特征空間中的交互,特別適用于處理含有密集文字的圖像,展示了卓越的性能。
TokenFD是什么
TokenFD是上海交通大學與美團聯合研發的細粒度圖文對齊基礎模型,專注于文檔理解領域。它通過Token級的對齊機制,使圖像Token和語言Token能夠在同一特征空間內共享,從而支持Token級的圖文交互。在處理文字密集的圖像時,TokenFD表現尤為出色。為訓練此模型,團隊創建了行業首個Token級圖文數據集——TokenIT,包含有2000萬張圖像以及18億個高質量的Token-Mask對,數據量遠超其他現有模型。
TokenFD的主要功能
- 細粒度圖文對齊:TokenFD實現了圖像Token與語言Token在同一特征空間的共享,支持Token級別的圖文交互。
- 提升多模態任務性能:TokenFD顯著增強了多模態大模型在文檔理解任務中的表現。例如,在文本分割任務中,Zero-Shot性能提升達18.78%;在文本理解任務中,提升幅度為1.48%;而在文本檢索任務中,性能提升更是高達50.33%。
- 基座適配與擴展:TokenFD可以直接替代其他多模態大模型的基座,而無需額外訓練,便可提升各項評估基準。基于TokenFD作為視覺基礎模型,進一步推出了TokenVL,開啟了一種全新的多模態圖文對齊預訓練范式。
TokenFD的技術原理
- BPE分詞與像素級掩碼標注:TokenFD首創了BPE分詞與像素級掩碼標注的結合技術。具體而言,模型將文本分割為BPE子詞(例如“un-”、“-able”),并將每個子詞(Token)精確對應到圖像中的特定區域。這一過程使得模型能夠更有效地理解圖像中的文字信息,支持“圖像即文字”的語義映射。
- 數據集與模型訓練:TokenFD依托自主研發的TokenIT數據集進行訓練。該數據集包含了2000萬張圖像和18億個高質量的Token-Mask對,涵蓋了自然場景、文檔及圖表等多種文本圖像類型。大規模的細粒度標注數據為模型提供了豐富的語義信息,使其在文檔理解、文本分割等任務中表現出色。
TokenFD的項目地址
- 項目官網:https://token-family.github.io/project_page/
- Github倉庫:https://github.com/Token-family/TokenFD
- HuggingFace模型庫:https://huggingface.co/TongkunGuan/TokenFD
- arXiv技術論文:https://arxiv.org/pdf/2503.02304
TokenFD的應用場景
- 文檔理解與處理:TokenFD能夠高效處理包含密集文字的文檔圖像,例如表格、公式及其他復雜結構。
- 圖像安全審查:TokenFD適用于圖像安全審查,通過細粒度的圖文對齊,能夠更準確地檢測圖像中的違規內容,如不當文字或符號。
- 基于文字的圖像檢索:TokenFD突破了傳統的基于文字識別的圖文檢索方式,支持通過特征空間直接進行相似度匹配,實現任意文字輸入的圖像內容查找。
- 知識檢索增強的大模型:TokenFD可以用于提升知識檢索能力,通過細粒度的圖文對齊,幫助大模型更好地理解和生成與圖像相關的文本內容。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...