將兩種架構融合在一起
原標題:DeepSeek等團隊新作JanusFlow: 1.3B大模型統一視覺理解和生成
文章來源:量子位
內容字數:5423字
JanusFlow:統一視覺理解與生成的多模態模型
在多模態AI領域,JanusFlow模型的提出為視覺理解與生成任務的有效統一提供了新的思路。該模型由DeepSeek、北大、香港大學及清華大學的團隊合作研發,基于預訓練視覺編碼器與多模態語言模型(MLLM)相結合的方法,展示了在視覺理解和生成任務上超越現有同規模模型的潛力。
1. 模型架構
JanusFlow通過將理解框架和生成框架直接融合,實現了端到端的訓練。其核心設計包括:
- 采用解耦的視覺編碼器,分別優化理解與生成能力。
- 利用理解端編碼器對生成端特征進行表征對齊,提升訓練效率。
2. 關鍵組件
在基礎的1.3B規模LLM上,JanusFlow引入了以下組件:
- 視覺理解編碼器:使用SigLIP將輸入圖片轉換為視覺嵌入,專注于視覺理解。
- 視覺生成編解碼器:基于SDXL-VAE的輕量級模塊,編碼器和解碼器均采用雙層ConvNeXt Block處理特征。
- 注意力機制:統一采用因果注意力處理理解與生成任務,提高模型效率。
3. 訓練策略
JanusFlow的訓練分為三個階段:Adaptation、Pre-Training和Supervised Fine-Tuning。為了平衡理解與生成能力,預訓練階段采用非對稱數據配比策略(理解:生成=2:8)。
4. 解耦與表征對齊
通過解耦理解與生成的視覺編碼器,JanusFlow能夠有效緩解在視覺編碼層面的沖突。利用REPA方法進行表征對齊,進一步提升生成任務的收斂效率。
5. 消融實驗
團隊進行了六組對照實驗,驗證了模型各組件的有效性。實驗結果表明,采用解耦編碼器并使用SigLIP作為理解模塊能夠顯著提升模型在理解和生成任務上的性能。
6. 實驗結果與評價
JanusFlow在多個評測標準上均取得了優異成績,超越了一些同規模的純理解模型和生成模型,展現出強勁的競爭力。該模型成功構建了一個統一的視覺理解與生成框架,具有簡潔的架構設計。
總結
JanusFlow通過融合自回歸LLM與Rectified Flow,顯著提升了多模態任務的整體表現,為未來的多模態AI研究提供了新的方向。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...