圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大
DreamOmni,一種用于T2I生成和編輯的統(tǒng)一模型。
原標題:圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大
文章來源:智猩猩GenAI
內(nèi)容字數(shù):11866字
DreamOmni: 統(tǒng)一圖像生成與編輯框架
本文主要介紹了一種名為DreamOmni的統(tǒng)一圖像生成與編輯框架,該框架旨在解決現(xiàn)有文本到圖像(T2I)模型在處理下游應用和編輯任務時面臨的挑戰(zhàn),例如需要集成各種插件或擴展輸入通道,以及高質(zhì)量編輯數(shù)據(jù)難以獲取的問題。
1. 問題與方案
現(xiàn)有的T2I模型通常專注于單一任務,難以適應多種圖像編輯任務(如基于指令的編輯、圖像修復與擴展、拖拽編輯、參考圖像生成等)。DreamOmni旨在通過一個統(tǒng)一框架解決這個問題,并提出了一種高效的合成拼貼數(shù)據(jù)pipeline來解決高質(zhì)量編輯數(shù)據(jù)缺乏的問題。
2. DreamOmni框架
DreamOmni框架的核心是其多任務統(tǒng)一設(shè)計。它通過將VLM(視覺-語言模型)特征與噪聲隱空間變量進行拼接,并輸入到DIT(Diffusion-Integrated Transformer)塊進行處理,從而實現(xiàn)統(tǒng)一的圖像生成與編輯。該框架避免了對特定任務插件的依賴,提高了模型的泛化能力和部署效率。實驗表明,DIT塊優(yōu)于傳統(tǒng)的Unet結(jié)構(gòu),具有更快的收斂速度。
3. 合成拼貼數(shù)據(jù)pipeline
為了解決高質(zhì)量編輯數(shù)據(jù)缺乏的問題,DreamOmni引入了合成拼貼數(shù)據(jù)pipeline。該pipeline能夠高效地生成用于各種編輯任務的數(shù)據(jù),包括基于指令的編輯(添加、刪除、替換)、圖像修復與擴展、拖拽編輯(平移、縮放、旋轉(zhuǎn))、參考圖像生成以及分割與檢測。該pipeline生成的合成數(shù)據(jù)顯著提升了T2I模型的準確性和生成質(zhì)量,特別是對于文本、形狀、顏色、位置和數(shù)量等屬性的生成。
4. 模型訓練與實驗結(jié)果
DreamOmni使用了2.5B參數(shù)的模型,并結(jié)合了1.25億張T2I圖像數(shù)據(jù)和6000萬張合成數(shù)據(jù)進行訓練。訓練過程分為三個階段,逐步提高圖像分辨率和訓練精度。實驗結(jié)果表明,DreamOmni在T2I生成、圖像修復、參考圖像生成、基于指令的編輯和拖動編輯等多個任務上均取得了顯著的成果,并在多個指標上超越了現(xiàn)有SOTA模型。
5. 關(guān)鍵技術(shù)與優(yōu)勢
DreamOmni的關(guān)鍵技術(shù)包括:多任務統(tǒng)一框架、高效的合成拼貼數(shù)據(jù)pipeline、基于DIT的模型結(jié)構(gòu)以及Rectified Flow優(yōu)化方法。其優(yōu)勢在于:統(tǒng)一框架提高了模型的泛化能力和部署效率;合成數(shù)據(jù)pipeline解決了高質(zhì)量編輯數(shù)據(jù)缺乏的問題;DIT結(jié)構(gòu)提高了模型的訓練效率和性能;Rectified Flow優(yōu)化方法提升了模型的生成質(zhì)量。
6. 結(jié)論
DreamOmni框架為T2I生成和圖像編輯提供了一個統(tǒng)一、高效且強大的解決方案。其多任務統(tǒng)一設(shè)計和高效的合成數(shù)據(jù)pipeline,顯著提升了模型的性能和泛化能力,為圖像生成與編輯領(lǐng)域帶來了新的突破。
注意:文章中關(guān)于自動駕駛峰會的預告信息與DreamOmni模型的研究內(nèi)容無關(guān),已將其分開描述。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。