2025年Next Token Prediction范式會統一多模態嗎？

本文從NTP范式的視角出發，全面梳理了多模態領域的最新進展。

原標題：2025年Next Token Prediction范式會統一多模態嗎？
文章來源：智猩猩GenAI
內容字數：5414字

多模態智能的下一個里程碑：基于Next Token Prediction的多模態綜述

本文總結了Chenllliang等人在知乎發表，并發表于arXiv的綜述論文《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》。該綜述從Next Token Prediction (NTP) 范式出發，系統地回顧了過去一兩年基于NTP的多模態模型(MMNTP)在多模態理解和生成任務上的進展，涵蓋了Tokenization、模型架構、訓練方法、性能評估和未來挑戰等多個方面。

1. 多模態Tokenization：MMNTP的基石

文章指出，多模態Tokenization是MMNTP的關鍵。它將圖像、視頻、音頻等不同模態的信息分解成可供Transformer處理的Token序列。Tokenization方法分為離散型（Discrete）和連續型（Continuous）兩種，前者將信息映射到有限的離散空間，后者保留數據的連續性。文中詳細比較了對比學習、自編碼器等多種訓練方法及其在不同模態上的應用和改進，并討論了離散型編碼器中存在的編碼表塌陷、信息損失等問題以及相應的改進方案（如FSQ、LFQ），以及連續型編碼器（如CLIP）中語義對齊、編碼效率等挑戰。

2. MMNTP模型架構：組合式與統一式

MMNTP模型通常由Transformer骨干模型、模態Tokenizer和De-Tokenizer組成。文章將MMNTP模型分為組合式和統一式兩類。組合式模型依賴強大的外部編碼器（如CLIP）和解碼器（如SD3），而統一式模型則使用輕量級編碼器和解碼器（如VQVAE），將大部分任務交給骨干模型。文章對這兩種架構進行了詳細的比較，并以圖片模態為例，展示了MMNTP模型如何統一處理圖片理解、生成和編輯等不同任務，只需改變輸入輸出組合即可。

3. 統一的訓練范式：三個階段

將不同模態的信息轉化為Token序列后，即可使用統一的MMNTP模型進行訓練。訓練任務分為離散Token預測和連續Token預測兩種。文章將訓練過程分為三個階段：模態對齊預訓練（在多模態數據-文本對上進行預訓練）、指令微調（針對特定下游任務進行微調）和偏好學習（將模型輸出與人類偏好對齊）。

4. 推理策略：Prompt工程

文章強調了Prompt工程在MMNTP模型中的重要性，并介紹了多模態上下文學習和多模態思維鏈兩種方法。多模態上下文學習在輸入中加入多模態任務示例，而多模態思維鏈則加入思維鏈提示（如“感知”、“推理過程”），以引導模型進行多模態推理。

5. 性能評測與挑戰

文章對MMNTP模型的訓練數據集進行了討論，并比較了NTP模型和非NTP模型在多模態任務上的表現。結果表明，NTP模型在大規模理解和生成任務上均表現出色。最后，文章指出了MMNTP模型目前面臨的四個挑戰：如何更好地利用無監督數據、克服多模態干擾、提高訓練和推理效率以及將MMNTP作為更廣泛任務的通用接口。