<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        2025年Next Token Prediction范式會統一多模態嗎?

        AIGC動態8個月前發布 智猩猩GenAI
        609 0 0

        本文從NTP范式的視角出發,全面梳理了多模態領域的最新進展。

        2025年Next Token Prediction范式會統一多模態嗎?

        原標題:2025年Next Token Prediction范式會統一多模態嗎?
        文章來源:智猩猩GenAI
        內容字數:5414字

        多模態智能的下一個里程碑:基于Next Token Prediction的多模態綜述

        本文總結了Chenllliang等人在知乎發表,并發表于arXiv的綜述論文《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》。該綜述從Next Token Prediction (NTP) 范式出發,系統地回顧了過去一兩年基于NTP的多模態模型(MMNTP)在多模態理解和生成任務上的進展,涵蓋了Tokenization、模型架構、訓練方法、性能評估和未來挑戰等多個方面。

        1. 多模態Tokenization:MMNTP的基石

        文章指出,多模態Tokenization是MMNTP的關鍵。它將圖像、視頻、音頻等不同模態的信息分解成可供Transformer處理的Token序列。Tokenization方法分為離散型(Discrete)和連續型(Continuous)兩種,前者將信息映射到有限的離散空間,后者保留數據的連續性。文中詳細比較了對比學習、自編碼器等多種訓練方法及其在不同模態上的應用和改進,并討論了離散型編碼器中存在的編碼表塌陷、信息損失等問題以及相應的改進方案(如FSQ、LFQ),以及連續型編碼器(如CLIP)中語義對齊、編碼效率等挑戰。

        2. MMNTP模型架構:組合式與統一式

        MMNTP模型通常由Transformer骨干模型、模態Tokenizer和De-Tokenizer組成。文章將MMNTP模型分為組合式和統一式兩類。組合式模型依賴強大的外部編碼器(如CLIP)和解碼器(如SD3),而統一式模型則使用輕量級編碼器和解碼器(如VQVAE),將大部分任務交給骨干模型。文章對這兩種架構進行了詳細的比較,并以圖片模態為例,展示了MMNTP模型如何統一處理圖片理解、生成和編輯等不同任務,只需改變輸入輸出組合即可。

        3. 統一的訓練范式:三個階段

        將不同模態的信息轉化為Token序列后,即可使用統一的MMNTP模型進行訓練。訓練任務分為離散Token預測和連續Token預測兩種。文章將訓練過程分為三個階段:模態對齊預訓練(在多模態數據-文本對上進行預訓練)、指令微調(針對特定下游任務進行微調)和偏好學習(將模型輸出與人類偏好對齊)。

        4. 推理策略:Prompt工程

        文章強調了Prompt工程在MMNTP模型中的重要性,并介紹了多模態上下文學習和多模態思維鏈兩種方法。多模態上下文學習在輸入中加入多模態任務示例,而多模態思維鏈則加入思維鏈提示(如“感知”、“推理過程”),以引導模型進行多模態推理。

        5. 性能評測與挑戰

        文章對MMNTP模型的訓練數據集進行了討論,并比較了NTP模型和非NTP模型在多模態任務上的表現。結果表明,NTP模型在大規模理解和生成任務上均表現出色。最后,文章指出了MMNTP模型目前面臨的四個挑戰:如何更好地利用無監督數據、克服多模態干擾、提高訓練和推理效率以及將MMNTP作為更廣泛任務的通用接口。

        6. 總結

        該綜述從NTP范式的角度,全面而系統地梳理了MMNTP模型的最新進展,為研究者提供了清晰的研究全景圖,并指明了未來研究方向。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 黄色免费网站网址| 久久这里只有精品国产免费10| 尤物视频在线免费观看| 曰批免费视频播放在线看片二| 可以免费观看的国产视频| 最近中文字幕无免费| 国产成人免费a在线视频色戒| 亚洲精品成人无码中文毛片不卡| 亚洲人成片在线观看| WWW免费视频在线观看播放| 中文字幕无码成人免费视频| 国产亚洲精品无码拍拍拍色欲| 国产精品亚洲精品| APP在线免费观看视频| 免费亚洲视频在线观看| 亚洲一区电影在线观看| 日本免费人成网ww555在线| 免费在线观看视频a| 好猛好深好爽好硬免费视频| 无码乱人伦一区二区亚洲| 野花视频在线官网免费1| 亚洲免费综合色在线视频| 亚洲欧美日韩中文无线码| 99久久久国产精品免费牛牛| 国产自偷亚洲精品页65页| 国产亚洲精品成人久久网站| 成人特黄a级毛片免费视频| 国产成人亚洲精品91专区高清| 久久久久国产成人精品亚洲午夜| 四虎影视在线影院在线观看免费视频| 国产成人精品久久亚洲| 在线播放亚洲精品| 亚洲av综合avav中文| 暖暖免费日本在线中文| 91嫩草亚洲精品| 免费A级毛片无码久久版| 国产成人精品免费久久久久 | 在线亚洲97se亚洲综合在线| 日韩内射激情视频在线播放免费 | 在线精品亚洲一区二区小说| 在线天堂免费观看.WWW|