理解生成協(xié)同促進(jìn)?華為諾亞提出ILLUME,15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化
以僅15M的圖文對(duì)數(shù)據(jù)用于圖文對(duì)齊,實(shí)現(xiàn)了在視覺理解、生成、編輯等多元任務(wù)上的出色表現(xiàn)。
原標(biāo)題:理解生成協(xié)同促進(jìn)?華為諾亞提出ILLUME,15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4469字
華為諾亞方舟實(shí)驗(yàn)室提出ILLUME:一款高效的多模態(tài)理解與生成一體化大模型
機(jī)器之心報(bào)道,華為諾亞方舟實(shí)驗(yàn)室近期提出了一種名為ILLUME的統(tǒng)一多模態(tài)大模型,該模型致力于將視覺理解和生成能力融合到同一個(gè)框架中,實(shí)現(xiàn)了對(duì)多模態(tài)任務(wù)的全新詮釋。ILLUME以LLM為核心,采用“連續(xù)圖像輸入+離散圖像輸出”的架構(gòu),在僅使用約15M的圖文對(duì)數(shù)據(jù)的情況下,便在視覺理解、生成和編輯等多種任務(wù)上取得了優(yōu)異的表現(xiàn),其性能甚至可以與專用單任務(wù)模型相媲美。
ILLUME 的主要貢獻(xiàn)
1. 高效的訓(xùn)練方法:ILLUME在保持架構(gòu)可擴(kuò)展性和泛化性的前提下,通過(guò)合理的視覺詞表、訓(xùn)練策略和數(shù)據(jù)配比策略,僅用少量數(shù)據(jù)實(shí)現(xiàn)了在多種視覺任務(wù)上的出色表現(xiàn),超越了現(xiàn)有許多統(tǒng)一多模態(tài)模型,如Chameleon、Show-O和Janus。
2. 自提升式多模態(tài)對(duì)齊策略:ILLUME提出了一種創(chuàng)新的自提升多模態(tài)對(duì)齊策略。該策略通過(guò)讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估,實(shí)現(xiàn)理解和生成能力的協(xié)同進(jìn)化。生成能力可以幫助模型更準(zhǔn)確地理解圖像,而理解能力則能反過(guò)來(lái)提升模型的生成精度,避免錯(cuò)誤。
ILLUME 的關(guān)鍵設(shè)計(jì)
1. 語(yǔ)義特征重建的視覺詞表:ILLUME采用語(yǔ)義特征重建的方式構(gòu)造視覺詞表,直接在高層語(yǔ)義空間中完成圖文對(duì)齊的特征學(xué)習(xí),這與傳統(tǒng)基于VQGAN的視覺詞表方法相比,能夠顯著加速模型的預(yù)訓(xùn)練過(guò)程,并提高圖文對(duì)齊的效率。
2. 三階段訓(xùn)練策略:ILLUME采用三階段訓(xùn)練策略:第一階段進(jìn)行圖像重建,初始化模型參數(shù)并對(duì)齊輸入輸出模式;第二階段進(jìn)行圖文對(duì)齊預(yù)訓(xùn)練;第三階段對(duì)高質(zhì)量數(shù)據(jù)進(jìn)行微調(diào),以提升模型在多種視覺文本任務(wù)上的性能。
ILLUME 的自提升多模態(tài)對(duì)齊策略
該策略包含三個(gè)步驟:首先,模型自生成圖像數(shù)據(jù);其次,對(duì)生成的圖像進(jìn)行多維度評(píng)估,包括物體、數(shù)量、顏色和空間關(guān)系等;最后,將評(píng)估數(shù)據(jù)重新格式化并加入到第三階段訓(xùn)練中,從而強(qiáng)化模型的理解和生成能力。
ILLUME 的實(shí)驗(yàn)結(jié)果
ILLUME在多模態(tài)理解任務(wù)上取得了SOTA水平,尤其在文檔理解方面表現(xiàn)突出;在文圖生成任務(wù)上取得了與現(xiàn)有模型相當(dāng)?shù)慕Y(jié)果;并且能夠有效處理圖像編輯任務(wù),例如物體刪除、風(fēng)格遷移和圖像補(bǔ)充等。
總結(jié)
ILLUME 作為一款高效的多模態(tài)理解與生成一體化大模型,通過(guò)巧妙的架構(gòu)設(shè)計(jì)、訓(xùn)練策略和自提升式多模態(tài)對(duì)齊策略,在數(shù)據(jù)效率和模型性能方面都取得了顯著的突破。其在多模態(tài)理解、生成和編輯任務(wù)上的出色表現(xiàn),為構(gòu)建更強(qiáng)大、更通用的多模態(tài)人工智能系統(tǒng)奠定了堅(jiān)實(shí)的基礎(chǔ)。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)