圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大
DreamOmni,一種用于T2I生成和編輯的統(tǒng)一模型。
原標(biāo)題:圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):11866字
DreamOmni: 統(tǒng)一圖像生成與編輯框架
本文主要介紹了一種名為DreamOmni的統(tǒng)一圖像生成與編輯框架,該框架旨在解決現(xiàn)有文本到圖像(T2I)模型在處理下游應(yīng)用和編輯任務(wù)時(shí)面臨的挑戰(zhàn),例如需要集成各種插件或擴(kuò)展輸入通道,以及高質(zhì)量編輯數(shù)據(jù)難以獲取的問題。
1. 問題與方案
現(xiàn)有的T2I模型通常專注于單一任務(wù),難以適應(yīng)多種圖像編輯任務(wù)(如基于指令的編輯、圖像修復(fù)與擴(kuò)展、拖拽編輯、參考圖像生成等)。DreamOmni旨在通過一個(gè)統(tǒng)一框架解決這個(gè)問題,并提出了一種高效的合成拼貼數(shù)據(jù)pipeline來解決高質(zhì)量編輯數(shù)據(jù)缺乏的問題。
2. DreamOmni框架
DreamOmni框架的核心是其多任務(wù)統(tǒng)一設(shè)計(jì)。它通過將VLM(視覺-語言模型)特征與噪聲隱空間變量進(jìn)行拼接,并輸入到DIT(Diffusion-Integrated Transformer)塊進(jìn)行處理,從而實(shí)現(xiàn)統(tǒng)一的圖像生成與編輯。該框架避免了對特定任務(wù)插件的依賴,提高了模型的泛化能力和部署效率。實(shí)驗(yàn)表明,DIT塊優(yōu)于傳統(tǒng)的Unet結(jié)構(gòu),具有更快的收斂速度。
3. 合成拼貼數(shù)據(jù)pipeline
為了解決高質(zhì)量編輯數(shù)據(jù)缺乏的問題,DreamOmni引入了合成拼貼數(shù)據(jù)pipeline。該pipeline能夠高效地生成用于各種編輯任務(wù)的數(shù)據(jù),包括基于指令的編輯(添加、刪除、替換)、圖像修復(fù)與擴(kuò)展、拖拽編輯(平移、縮放、旋轉(zhuǎn))、參考圖像生成以及分割與檢測。該pipeline生成的合成數(shù)據(jù)顯著提升了T2I模型的準(zhǔn)確性和生成質(zhì)量,特別是對于文本、形狀、顏色、位置和數(shù)量等屬性的生成。
4. 模型訓(xùn)練與實(shí)驗(yàn)結(jié)果
DreamOmni使用了2.5B參數(shù)的模型,并結(jié)合了1.25億張T2I圖像數(shù)據(jù)和6000萬張合成數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練過程分為三個(gè)階段,逐步提高圖像分辨率和訓(xùn)練精度。實(shí)驗(yàn)結(jié)果表明,DreamOmni在T2I生成、圖像修復(fù)、參考圖像生成、基于指令的編輯和拖動(dòng)編輯等多個(gè)任務(wù)上均取得了顯著的成果,并在多個(gè)指標(biāo)上超越了現(xiàn)有SOTA模型。
5. 關(guān)鍵技術(shù)與優(yōu)勢
DreamOmni的關(guān)鍵技術(shù)包括:多任務(wù)統(tǒng)一框架、高效的合成拼貼數(shù)據(jù)pipeline、基于DIT的模型結(jié)構(gòu)以及Rectified Flow優(yōu)化方法。其優(yōu)勢在于:統(tǒng)一框架提高了模型的泛化能力和部署效率;合成數(shù)據(jù)pipeline解決了高質(zhì)量編輯數(shù)據(jù)缺乏的問題;DIT結(jié)構(gòu)提高了模型的訓(xùn)練效率和性能;Rectified Flow優(yōu)化方法提升了模型的生成質(zhì)量。
6. 結(jié)論
DreamOmni框架為T2I生成和圖像編輯提供了一個(gè)統(tǒng)一、高效且強(qiáng)大的解決方案。其多任務(wù)統(tǒng)一設(shè)計(jì)和高效的合成數(shù)據(jù)pipeline,顯著提升了模型的性能和泛化能力,為圖像生成與編輯領(lǐng)域帶來了新的突破。
注意:文章中關(guān)于自動(dòng)駕駛峰會(huì)的預(yù)告信息與DreamOmni模型的研究內(nèi)容無關(guān),已將其分開描述。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。