MetaMorph是一款先進(jìn)的多模態(tài)大模型(MLLM),通過(guò)指令微調(diào)(Instruction Tuning)實(shí)現(xiàn)視覺(jué)理解與生成。其創(chuàng)新的Visual-Predictive Instruction Tuning(VPiT)方法使得預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)能夠迅速轉(zhuǎn)變?yōu)橐粋€(gè)統(tǒng)一的自回歸模型,能夠生成文本和視覺(jué)token。MetaMorph在視覺(jué)理解和生成的基準(zhǔn)測(cè)試中表現(xiàn)出色,能夠利用從LLM預(yù)訓(xùn)練中獲得的世界知識(shí)和推理能力,克服其他生成模型常見(jiàn)的失敗模式。
MetaMorph是什么
MetaMorph是一款多模態(tài)大模型(MLLM),通過(guò)指令微調(diào)(Instruction Tuning)實(shí)現(xiàn)視覺(jué)理解與生成。它采用了一種名為Visual-Predictive Instruction Tuning(VPiT)的方法,使得預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)能夠迅速轉(zhuǎn)變?yōu)橐粋€(gè)統(tǒng)一的自回歸模型,能夠生成文本和視覺(jué)token。MetaMorph在視覺(jué)理解和生成的基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,能夠基于從LLM預(yù)訓(xùn)練中獲得的世界知識(shí)和推理能力,克服其他生成模型常見(jiàn)的失敗模式。研究表明,LLM可能具備強(qiáng)大的“先驗(yàn)”視覺(jué)能力,這些能力可以通過(guò)相對(duì)簡(jiǎn)單的指令調(diào)整過(guò)程高效適應(yīng)于視覺(jué)理解與生成。
MetaMorph的主要功能
- 多模態(tài)理解與生成:MetaMorph通過(guò)VPiT技術(shù),使預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)能夠迅速轉(zhuǎn)變?yōu)橐粋€(gè)統(tǒng)一的自回歸模型,生成文本和視覺(jué)token,實(shí)現(xiàn)多模態(tài)理解與生成。
- 視覺(jué)生成能力:MetaMorph在視覺(jué)生成方面能夠利用從LLM預(yù)訓(xùn)練中獲得的世界知識(shí)和推理能力,克服其他生成模型常見(jiàn)的失敗模式。
- 隱式推理執(zhí)行:MetaMorph能夠在生成視覺(jué)token之前隱式地執(zhí)行推理步驟,例如根據(jù)提示詞生成相應(yīng)的圖像。
- 處理專(zhuān)業(yè)術(shù)語(yǔ):與文本嵌入模型CLIP和T5相比,MetaMorph更有效地處理專(zhuān)業(yè)術(shù)語(yǔ),生成準(zhǔn)確的視覺(jué)標(biāo)記。
- 統(tǒng)一建模方法:MetaMorph展示了統(tǒng)一建模方法,允許模型利用LLM的強(qiáng)大功能,從預(yù)訓(xùn)練的LLM中提取知識(shí)。
- 競(jìng)爭(zhēng)力的表現(xiàn):MetaMorph在視覺(jué)理解和視覺(jué)生成基準(zhǔn)測(cè)試中都取得了競(jìng)爭(zhēng)力的表現(xiàn),優(yōu)于其他統(tǒng)一模型。
MetaMorph的技術(shù)原理
- Visual-Predictive Instruction Tuning (VPiT):是一種簡(jiǎn)單而有效的視覺(jué)指令調(diào)優(yōu)方法,使預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)能迅速轉(zhuǎn)變?yōu)橐粋€(gè)統(tǒng)一的自回歸模型,生成文本和視覺(jué)token。
- 多模態(tài)token預(yù)測(cè):VPiT教導(dǎo)LLM從以指令跟隨格式整理的圖像和文本數(shù)據(jù)輸入序列中預(yù)測(cè)離散的文本標(biāo)記和連續(xù)的視覺(jué)標(biāo)記。
- 視覺(jué)生成能力與視覺(jué)理解的關(guān)聯(lián):研究發(fā)現(xiàn),視覺(jué)生成能力作為改進(jìn)的視覺(jué)理解的自然副產(chǎn)品出現(xiàn),并且可以通過(guò)少量的生成數(shù)據(jù)高效解鎖。
- 理解和生成的不對(duì)稱(chēng)性:理解和生成視覺(jué)token的能力是相互關(guān)聯(lián)但不對(duì)稱(chēng)的。增加理解數(shù)據(jù)可以更有效地提高視覺(jué)理解和生成性能,而增加生成數(shù)據(jù)雖然可以提高生成質(zhì)量,但對(duì)視覺(jué)理解的提升效果較小。
- 統(tǒng)一模型訓(xùn)練:基于上述發(fā)現(xiàn),MetaMorph模型使用VPiT來(lái)預(yù)測(cè)多模態(tài)token,基于各種數(shù)據(jù)源進(jìn)行訓(xùn)練,包括視覺(jué)問(wèn)答數(shù)據(jù)集和無(wú)文本注釋的純圖像和視頻數(shù)據(jù)。
- 預(yù)訓(xùn)練LLM的知識(shí):MetaMorph能基于從LLM預(yù)訓(xùn)練中獲得的世界知識(shí)和推理能力,在視覺(jué)生成過(guò)程中克服其他生成模型常見(jiàn)的失敗模式。
MetaMorph的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://tsb0601.github.io/metamorph/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.14164v1
MetaMorph的應(yīng)用場(chǎng)景
- 視覺(jué)理解和視覺(jué)生成:通過(guò)指令調(diào)優(yōu)(VPiT)預(yù)測(cè)多模態(tài)token,利用各種數(shù)據(jù)源,包括視覺(jué)問(wèn)答數(shù)據(jù)集和無(wú)文本注釋的純圖像和視頻數(shù)據(jù)。
- 知識(shí)提取與視覺(jué)token生成:MetaMorph能從預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)中提取知識(shí),并在生成視覺(jué)token之前隱式地執(zhí)行推理步驟。例如,輸入提示詞“斑蝶幼蟲(chóng)轉(zhuǎn)變形態(tài)后的動(dòng)物”,MetaMorph成功生成了蝴蝶的圖像。
- 處理專(zhuān)業(yè)術(shù)語(yǔ)和語(yǔ)義難題:MetaMorph比CLIP和T5等文本嵌入模型更有效地處理專(zhuān)業(yè)術(shù)語(yǔ)和常見(jiàn)的語(yǔ)義難題,如否定和主觀性。
- 多模態(tài)生成推理:MetaMorph能根據(jù)謎題提示生成圖像,例如“國(guó)家公園位于”。可以直接使用提示語(yǔ)而無(wú)需任何思維鏈(CoT)提示語(yǔ)“生成謎題圖片”。MetaMorph可以從需要多步推理的提示中生成正確的圖像。
- 解決視覺(jué)謎題:MetaMorph能解決需要隱式推理的視覺(jué)謎題,例如在回答“一種樂(lè)器,這種樂(lè)器通常由提出狹義相對(duì)論的科學(xué)家演奏”的問(wèn)題時(shí),模型需要隱式地完成識(shí)別愛(ài)因斯坦、識(shí)別他的首選樂(lè)器是小提琴,直接生成正確的視覺(jué)token。