突破視覺界限:MetaMorph模型引領(lǐng)理解與生成的未來
視覺理解與生成可以互惠互利,而不是相互對(duì)立。

原標(biāo)題:統(tǒng)一視覺理解與生成,MetaMorph模型問世,LeCun、謝賽寧、劉壯等參與
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):11683字
多模態(tài)大模型的進(jìn)展與研究成果
隨著多模態(tài)大模型(MLLM)在視覺理解領(lǐng)域的快速發(fā)展,研究者們正在探索如何通過微調(diào)大語言模型(LLM)來生成同樣有效的視覺信息。Meta與紐約大學(xué)的合作研究,揭示了LLM具有豐富的視覺知識(shí),可以通過視覺指令調(diào)整方法(VPiT)實(shí)現(xiàn)視覺生成。
1. 研究背景
該研究的論文名為《MetaMorph: Multimodal Understanding and Generation via Instruction Tuning》,由AI領(lǐng)域知名學(xué)者參與。研究者們希望檢查LLM在視覺理解與生成方面的潛力,尤其是通過少量數(shù)據(jù)的微調(diào)來激活其視覺功能。
2. 視覺預(yù)測指令調(diào)整(VPiT)
VPiT是一種擴(kuò)展現(xiàn)有指令調(diào)整方法的新技術(shù),旨在讓LLM同時(shí)生成文本和視覺token。其通過預(yù)訓(xùn)練的視覺編碼器嵌入和文本token作為輸入,輸出連續(xù)視覺token和離散文本token。研究表明,理解視覺輸入的能力與生成能力密切相關(guān),且只需極少的額外訓(xùn)練。
3. 實(shí)驗(yàn)成果
研究者通過聯(lián)合訓(xùn)練視覺理解和生成數(shù)據(jù),發(fā)現(xiàn)理解數(shù)據(jù)的增加顯著提升了模型的視覺生成能力。相較于單獨(dú)使用生成數(shù)據(jù),視覺理解數(shù)據(jù)的輔助作用更為顯著,顯示出視覺生成并非能力,而是相互依存的。
4. MetaMorph模型的表現(xiàn)
MetaMorph模型在多個(gè)視覺理解和生成基準(zhǔn)上表現(xiàn)出競爭力,能有效利用LLM內(nèi)在的知識(shí)生成高質(zhì)量視覺token。此外,該模型在生成視覺token時(shí)能隱式執(zhí)行推理,體現(xiàn)了其在復(fù)雜任務(wù)中的能力。
5. 結(jié)論與啟示
研究表明,使用指令調(diào)整訓(xùn)練統(tǒng)一模型是可行的,LLM的視覺功能在少量樣本條件下也能被激活。這為未來的多模態(tài)模型開發(fā)提供了重要的見解,強(qiáng)調(diào)了理解數(shù)據(jù)在提升模型整體性能中的關(guān)鍵作用。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)