視覺理解與生成可以互惠互利,而不是相互對立。
原標題:統一視覺理解與生成,MetaMorph模型問世,LeCun、謝賽寧、劉壯等參與
文章來源:機器之心
內容字數:11683字
多模態大模型的進展與研究成果
隨著多模態大模型(MLLM)在視覺理解領域的快速發展,研究者們正在探索如何通過微調大語言模型(LLM)來生成同樣有效的視覺信息。Meta與紐約大學的合作研究,揭示了LLM具有豐富的視覺知識,可以通過視覺指令調整方法(VPiT)實現視覺生成。
1. 研究背景
該研究的論文名為《MetaMorph: Multimodal Understanding and Generation via Instruction Tuning》,由AI領域知名學者參與。研究者們希望檢查LLM在視覺理解與生成方面的潛力,尤其是通過少量數據的微調來激活其視覺功能。
2. 視覺預測指令調整(VPiT)
VPiT是一種擴展現有指令調整方法的新技術,旨在讓LLM同時生成文本和視覺token。其通過預訓練的視覺編碼器嵌入和文本token作為輸入,輸出連續視覺token和離散文本token。研究表明,理解視覺輸入的能力與生成能力密切相關,且只需極少的額外訓練。
3. 實驗成果
研究者通過聯合訓練視覺理解和生成數據,發現理解數據的增加顯著提升了模型的視覺生成能力。相較于單獨使用生成數據,視覺理解數據的輔助作用更為顯著,顯示出視覺生成并非能力,而是相互依存的。
4. MetaMorph模型的表現
MetaMorph模型在多個視覺理解和生成基準上表現出競爭力,能有效利用LLM內在的知識生成高質量視覺token。此外,該模型在生成視覺token時能隱式執行推理,體現了其在復雜任務中的能力。
5. 結論與啟示
研究表明,使用指令調整訓練統一模型是可行的,LLM的視覺功能在少量樣本條件下也能被激活。這為未來的多模態模型開發提供了重要的見解,強調了理解數據在提升模型整體性能中的關鍵作用。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺