圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大
DreamOmni,一種用于T2I生成和編輯的統(tǒng)一模型。
原標題:圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大
文章來源:智猩猩GenAI
內容字數:11866字
DreamOmni: 統(tǒng)一圖像生成與編輯框架
本文主要介紹了一種名為DreamOmni的統(tǒng)一圖像生成與編輯框架,該框架旨在解決現(xiàn)有文本到圖像(T2I)模型在處理下游應用和編輯任務時面臨的挑戰(zhàn),例如需要集成各種插件或擴展輸入通道,以及高質量編輯數據難以獲取的問題。
1. 問題與方案
現(xiàn)有的T2I模型通常專注于單一任務,難以適應多種圖像編輯任務(如基于指令的編輯、圖像修復與擴展、拖拽編輯、參考圖像生成等)。DreamOmni旨在通過一個統(tǒng)一框架解決這個問題,并提出了一種高效的合成拼貼數據pipeline來解決高質量編輯數據缺乏的問題。
2. DreamOmni框架
DreamOmni框架的核心是其多任務統(tǒng)一設計。它通過將VLM(視覺-語言模型)特征與噪聲隱空間變量進行拼接,并輸入到DIT(Diffusion-Integrated Transformer)塊進行處理,從而實現(xiàn)統(tǒng)一的圖像生成與編輯。該框架避免了對特定任務插件的依賴,提高了模型的泛化能力和部署效率。實驗表明,DIT塊優(yōu)于傳統(tǒng)的Unet結構,具有更快的收斂速度。
3. 合成拼貼數據pipeline
為了解決高質量編輯數據缺乏的問題,DreamOmni引入了合成拼貼數據pipeline。該pipeline能夠高效地生成用于各種編輯任務的數據,包括基于指令的編輯(添加、刪除、替換)、圖像修復與擴展、拖拽編輯(平移、縮放、旋轉)、參考圖像生成以及分割與檢測。該pipeline生成的合成數據顯著提升了T2I模型的準確性和生成質量,特別是對于文本、形狀、顏色、位置和數量等屬性的生成。
4. 模型訓練與實驗結果
DreamOmni使用了2.5B參數的模型,并結合了1.25億張T2I圖像數據和6000萬張合成數據進行訓練。訓練過程分為三個階段,逐步提高圖像分辨率和訓練精度。實驗結果表明,DreamOmni在T2I生成、圖像修復、參考圖像生成、基于指令的編輯和拖動編輯等多個任務上均取得了顯著的成果,并在多個指標上超越了現(xiàn)有SOTA模型。
5. 關鍵技術與優(yōu)勢
DreamOmni的關鍵技術包括:多任務統(tǒng)一框架、高效的合成拼貼數據pipeline、基于DIT的模型結構以及Rectified Flow優(yōu)化方法。其優(yōu)勢在于:統(tǒng)一框架提高了模型的泛化能力和部署效率;合成數據pipeline解決了高質量編輯數據缺乏的問題;DIT結構提高了模型的訓練效率和性能;Rectified Flow優(yōu)化方法提升了模型的生成質量。
6. 結論
DreamOmni框架為T2I生成和圖像編輯提供了一個統(tǒng)一、高效且強大的解決方案。其多任務統(tǒng)一設計和高效的合成數據pipeline,顯著提升了模型的性能和泛化能力,為圖像生成與編輯領域帶來了新的突破。
注意:文章中關于自動駕駛峰會的預告信息與DreamOmni模型的研究內容無關,已將其分開描述。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。