JanusFlow：顛覆視覺理解與生成的1.3B大模型

將兩種架構融合在一起

JanusFlow：顛覆視覺理解與生成的1.3B大模型革命

原標題：DeepSeek等團隊新作JanusFlow: 1.3B大模型統一視覺理解和生成
文章來源：量子位
內容字數：5423字

在多模態AI領域，JanusFlow模型的提出為視覺理解與生成任務的有效統一提供了新的思路。該模型由DeepSeek、北大、香港大學及清華大學的團隊合作研發，基于預訓練視覺編碼器與多模態語言模型（MLLM）相結合的方法，展示了在視覺理解和生成任務上超越現有同規模模型的潛力。

JanusFlow通過將理解框架和生成框架直接融合，實現了端到端的訓練。其核心設計包括：

在基礎的1.3B規模LLM上，JanusFlow引入了以下組件：

JanusFlow的訓練分為三個階段：Adaptation、Pre-Training和Supervised Fine-Tuning。為了平衡理解與生成能力，預訓練階段采用非對稱數據配比策略（理解：生成=2:8）。

通過解耦理解與生成的視覺編碼器，JanusFlow能夠有效緩解在視覺編碼層面的沖突。利用REPA方法進行表征對齊，進一步提升生成任務的收斂效率。

團隊進行了六組對照實驗，驗證了模型各組件的有效性。實驗結果表明，采用解耦編碼器并使用SigLIP作為理解模塊能夠顯著提升模型在理解和生成任務上的性能。

JanusFlow在多個評測標準上均取得了優異成績，超越了一些同規模的純理解模型和生成模型，展現出強勁的競爭力。該模型成功構建了一個統一的視覺理解與生成框架，具有簡潔的架構設計。

JanusFlow通過融合自回歸LLM與Rectified Flow，顯著提升了多模態任務的整體表現，為未來的多模態AI研究提供了新的方向。

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...