美團提出統一多模態模型OneCAT,一鍵搞定視覺問答/圖像編輯/文生圖任務,性能表現SOTA。

導讀:美團發布了一項名為 OneCAT 的創新性統一多模態模型,其核心亮點在于采用純解碼器 Transformer 架構,實現了對理解、生成和編輯功能的無縫整合。模型通過獨特的混合專家(MoE)結構,無需外部組件即可高效處理高分辨率圖像,并原生支持動態分辨率。此外,OneCAT 率先在大模型中應用了多尺度視覺自回歸機制,顯著減少了生成步驟,同時保持了卓越的性能,并在多項多模態基準測試中刷新了現有開源統一多模態模型的記錄。

核心特性解析
OneCAT 模型在設計上獨具匠心,展現出多方面的創新之處:
純解碼器架構的優勢
在推理階段,OneCAT 摒棄了傳統模型依賴的外部視覺編碼器和 VAE 分詞器。取而代之的是,它僅利用輕量級的補丁嵌入層來處理原始圖像數據。這種設計大大簡化了模型結構,提高了運行效率。
創新的混合專家(MoE)機制
模型內部集成了三位專門的 FFN(前饋網絡)專家,它們各司其職,協同工作:一位專用于語言理解,一位專注于視覺信息的解析,而另一位則負責圖像的生成。這種模塊化的設計使得模型能夠更精細地處理不同類型的多模態任務。
前瞻性的多尺度自回歸生成
OneCAT 率先采用了下一代尺度預測范式,能夠實現由粗到細的圖像生成過程。與現有的擴散模型相比,這種方法能夠大幅縮減生成圖像所需的步驟,顯著提升了生成效率,同時還能保持高質量的輸出。
多樣的應用場景展示
OneCAT 的統一架構使其能夠勝任多種多模態任務,以下是一些典型的應用示例:
交互式對話與視覺問答

文本驅動的圖像創作

指令導向的圖像編輯

技術細節與研究鏈接
對于有興趣深入了解 OneCAT 的研究者和開發者,以下是相關的技術文檔和項目地址:
- 論文:OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
- 項目主頁:https://onecat-ai.github.io/
OneCAT 的核心創新在于其純解碼器架構,它將理解、生成和編輯能力融于一體,并極大地簡化了推理過程,無需依賴外部視覺組件。通過創新的混合專家(MoE)設計和多尺度自回歸生成技術,OneCAT 在效率和性能上均取得了顯著突破,為通用多模態智能的研究與應用奠定了堅實的基礎。
方概覽
OneCAT 的實現基于以下幾個關鍵技術點:

純解碼器設計
如前所述,模型在推理時取消了外部視覺編碼器和 VAE 分詞器,僅依賴于簡化的補丁嵌入層來處理原始圖像。
混合專家(MoE)架構
模型內部包含三個專門的 FFN 專家:一個用于文本理解,一個用于視覺標記理解,還有一個用于圖像合成。
多尺度自回歸生成
這項技術是生成圖像的關鍵,它允許模型以粗粒度到細粒度的順序生成圖像,從而大大縮短了生成時間。
訓練流程詳解
OneCAT 的訓練過程分為三個主要階段,以確保模型在理解和生成能力上的全面發展:

第一階段:預訓練
該階段包含兩個子任務:
- 理解蒸餾:利用 InterViT 作為教師模型,對 4.36 億對圖像-文本數據進行師生蒸餾訓練。
- 生成預訓練:使用 5100 萬個文本到圖像樣本,并引入 Next-Scale 預測損失進行訓練。
第二階段:統一中期訓練
在此階段,模型通過集成 Scale-Aware Adapter,對所有任務進行統一訓練,以實現更優的生成性能。同時,模型原生支持動態分辨率和寬高比,適用于多樣化的理解和生成任務。
第三階段:監督微調
最后,模型使用高質量的指令跟蹤數據集進行微調,以提升其在各種指令下的生成能力,并擴展了對高分辨率圖像的支持。
實驗結果分析
OneCAT 在多項關鍵多模態任務上取得了令人矚目的成果:
多模態理解能力

文本到圖像生成效果
圖像編輯的精準度
效率分析對比

可以看出,OneCAT 在推理速度和計算資源消耗方面均表現出顯著的優勢。
總結
OneCAT 的發布標志著統一多模態模型發展的一個重要里程碑。其純解碼器架構、高效的混合專家設計以及創新的多尺度自回歸生成機制,不僅實現了理解、生成和編輯功能的無縫集成,還在性能和效率上超越了現有的大部分開源模型。這項研究有力地證明了基于第一性原理的多模態建模方法的潛力和優越性,為未來通用多模態智能的發展提供了堅實的技術基礎和廣闊的應用前景。