<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        2025年Next Token Prediction范式會統一多模態嗎?

        AIGC動態4個月前發布 智猩猩GenAI
        593 0 0

        本文從NTP范式的視角出發,全面梳理了多模態領域的最新進展。

        2025年Next Token Prediction范式會統一多模態嗎?

        原標題:2025年Next Token Prediction范式會統一多模態嗎?
        文章來源:智猩猩GenAI
        內容字數:5414字

        多模態智能的下一個里程碑:基于Next Token Prediction的多模態綜述

        本文總結了Chenllliang等人在知乎發表,并發表于arXiv的綜述論文《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》。該綜述從Next Token Prediction (NTP) 范式出發,系統地回顧了過去一兩年基于NTP的多模態模型(MMNTP)在多模態理解和生成任務上的進展,涵蓋了Tokenization、模型架構、訓練方法、性能評估和未來挑戰等多個方面。

        1. 多模態Tokenization:MMNTP的基石

        文章指出,多模態Tokenization是MMNTP的關鍵。它將圖像、視頻、音頻等不同模態的信息分解成可供Transformer處理的Token序列。Tokenization方法分為離散型(Discrete)和連續型(Continuous)兩種,前者將信息映射到有限的離散空間,后者保留數據的連續性。文中詳細比較了對比學習、自編碼器等多種訓練方法及其在不同模態上的應用和改進,并討論了離散型編碼器中存在的編碼表塌陷、信息損失等問題以及相應的改進方案(如FSQ、LFQ),以及連續型編碼器(如CLIP)中語義對齊、編碼效率等挑戰。

        2. MMNTP模型架構:組合式與統一式

        MMNTP模型通常由Transformer骨干模型、模態Tokenizer和De-Tokenizer組成。文章將MMNTP模型分為組合式和統一式兩類。組合式模型依賴強大的外部編碼器(如CLIP)和解碼器(如SD3),而統一式模型則使用輕量級編碼器和解碼器(如VQVAE),將大部分任務交給骨干模型。文章對這兩種架構進行了詳細的比較,并以圖片模態為例,展示了MMNTP模型如何統一處理圖片理解、生成和編輯等不同任務,只需改變輸入輸出組合即可。

        3. 統一的訓練范式:三個階段

        將不同模態的信息轉化為Token序列后,即可使用統一的MMNTP模型進行訓練。訓練任務分為離散Token預測和連續Token預測兩種。文章將訓練過程分為三個階段:模態對齊預訓練(在多模態數據-文本對上進行預訓練)、指令微調(針對特定下游任務進行微調)和偏好學習(將模型輸出與人類偏好對齊)。

        4. 推理策略:Prompt工程

        文章強調了Prompt工程在MMNTP模型中的重要性,并介紹了多模態上下文學習和多模態思維鏈兩種方法。多模態上下文學習在輸入中加入多模態任務示例,而多模態思維鏈則加入思維鏈提示(如“感知”、“推理過程”),以引導模型進行多模態推理。

        5. 性能評測與挑戰

        文章對MMNTP模型的訓練數據集進行了討論,并比較了NTP模型和非NTP模型在多模態任務上的表現。結果表明,NTP模型在大規模理解和生成任務上均表現出色。最后,文章指出了MMNTP模型目前面臨的四個挑戰:如何更好地利用無監督數據、克服多模態干擾、提高訓練和推理效率以及將MMNTP作為更廣泛任務的通用接口。

        6. 總結

        該綜述從NTP范式的角度,全面而系統地梳理了MMNTP模型的最新進展,為研究者提供了清晰的研究全景圖,并指明了未來研究方向。


        聯系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕在线观看免费视频| 无码不卡亚洲成?人片| 最近中文字幕完整免费视频ww | 超pen个人视频国产免费观看 | 亚洲AV无码一区二区二三区软件| 久久精品国产亚洲av麻豆图片| 日韩在线观看视频免费| 亚洲视频免费在线播放| 国产综合亚洲专区在线| 亚洲精品乱码久久久久久蜜桃图片| 日本免费A级毛一片| 国产大片线上免费看| 亚洲性色高清完整版在线观看| 黄色短视频免费看| 国产成人免费福利网站| 国产精品亚洲一区二区在线观看 | 成年人在线免费观看| 久久精品视频亚洲| 99re在线精品视频免费| 亚洲国产AV无码专区亚洲AV| 国产亚洲精品成人久久网站| 精品国产免费人成电影在线观看| 亚洲AV无码久久精品成人| 四虎在线成人免费网站| 亚洲暴爽av人人爽日日碰| 亚洲一区二区三区乱码A| 最好2018中文免费视频| 国产免费看插插插视频| 亚洲精品免费网站| 最近最好最新2019中文字幕免费| 亚洲一级毛片在线观| 国产免费人成视频在线观看| 抽搐一进一出gif免费视频| 国产啪亚洲国产精品无码| 成人午夜影视全部免费看| 久久综合图区亚洲综合图区| 毛片a级毛片免费播放100| 国产精品永久免费视频| 久久精品亚洲福利| 国产91色综合久久免费分享| 免费无码又爽又黄又刺激网站|