本文從NTP范式的視角出發,全面梳理了多模態領域的最新進展。
原標題:2025年Next Token Prediction范式會統一多模態嗎?
文章來源:智猩猩GenAI
內容字數:5414字
多模態智能的下一個里程碑:基于Next Token Prediction的多模態綜述
本文總結了Chenllliang等人在知乎發表,并發表于arXiv的綜述論文《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》。該綜述從Next Token Prediction (NTP) 范式出發,系統地回顧了過去一兩年基于NTP的多模態模型(MMNTP)在多模態理解和生成任務上的進展,涵蓋了Tokenization、模型架構、訓練方法、性能評估和未來挑戰等多個方面。
1. 多模態Tokenization:MMNTP的基石
文章指出,多模態Tokenization是MMNTP的關鍵。它將圖像、視頻、音頻等不同模態的信息分解成可供Transformer處理的Token序列。Tokenization方法分為離散型(Discrete)和連續型(Continuous)兩種,前者將信息映射到有限的離散空間,后者保留數據的連續性。文中詳細比較了對比學習、自編碼器等多種訓練方法及其在不同模態上的應用和改進,并討論了離散型編碼器中存在的編碼表塌陷、信息損失等問題以及相應的改進方案(如FSQ、LFQ),以及連續型編碼器(如CLIP)中語義對齊、編碼效率等挑戰。
2. MMNTP模型架構:組合式與統一式
MMNTP模型通常由Transformer骨干模型、模態Tokenizer和De-Tokenizer組成。文章將MMNTP模型分為組合式和統一式兩類。組合式模型依賴強大的外部編碼器(如CLIP)和解碼器(如SD3),而統一式模型則使用輕量級編碼器和解碼器(如VQVAE),將大部分任務交給骨干模型。文章對這兩種架構進行了詳細的比較,并以圖片模態為例,展示了MMNTP模型如何統一處理圖片理解、生成和編輯等不同任務,只需改變輸入輸出組合即可。
3. 統一的訓練范式:三個階段
將不同模態的信息轉化為Token序列后,即可使用統一的MMNTP模型進行訓練。訓練任務分為離散Token預測和連續Token預測兩種。文章將訓練過程分為三個階段:模態對齊預訓練(在多模態數據-文本對上進行預訓練)、指令微調(針對特定下游任務進行微調)和偏好學習(將模型輸出與人類偏好對齊)。
4. 推理策略:Prompt工程
文章強調了Prompt工程在MMNTP模型中的重要性,并介紹了多模態上下文學習和多模態思維鏈兩種方法。多模態上下文學習在輸入中加入多模態任務示例,而多模態思維鏈則加入思維鏈提示(如“感知”、“推理過程”),以引導模型進行多模態推理。
5. 性能評測與挑戰
文章對MMNTP模型的訓練數據集進行了討論,并比較了NTP模型和非NTP模型在多模態任務上的表現。結果表明,NTP模型在大規模理解和生成任務上均表現出色。最后,文章指出了MMNTP模型目前面臨的四個挑戰:如何更好地利用無監督數據、克服多模態干擾、提高訓練和推理效率以及將MMNTP作為更廣泛任務的通用接口。
6. 總結
該綜述從NTP范式的角度,全面而系統地梳理了MMNTP模型的最新進展,為研究者提供了清晰的研究全景圖,并指明了未來研究方向。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。