<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大

        AIGC動態(tài)8個月前發(fā)布 智猩猩GenAI
        607 0 0

        DreamOmni,一種用于T2I生成和編輯的統(tǒng)一模型。

        圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大

        原標題:圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大
        文章來源:智猩猩GenAI
        內(nèi)容字數(shù):11866字

        DreamOmni: 統(tǒng)一圖像生成與編輯框架

        本文主要介紹了一種名為DreamOmni的統(tǒng)一圖像生成與編輯框架,該框架旨在解決現(xiàn)有文本到圖像(T2I)模型在處理下游應用和編輯任務時面臨的挑戰(zhàn),例如需要集成各種插件或擴展輸入通道,以及高質(zhì)量編輯數(shù)據(jù)難以獲取的問題。

        1. 問題與方案

        現(xiàn)有的T2I模型通常專注于單一任務,難以適應多種圖像編輯任務(如基于指令的編輯、圖像修復與擴展、拖拽編輯、參考圖像生成等)。DreamOmni旨在通過一個統(tǒng)一框架解決這個問題,并提出了一種高效的合成拼貼數(shù)據(jù)pipeline來解決高質(zhì)量編輯數(shù)據(jù)缺乏的問題。

        2. DreamOmni框架

        DreamOmni框架的核心是其多任務統(tǒng)一設(shè)計。它通過將VLM(視覺-語言模型)特征與噪聲隱空間變量進行拼接,并輸入到DIT(Diffusion-Integrated Transformer)塊進行處理,從而實現(xiàn)統(tǒng)一的圖像生成與編輯。該框架避免了對特定任務插件的依賴,提高了模型的泛化能力和部署效率。實驗表明,DIT塊優(yōu)于傳統(tǒng)的Unet結(jié)構(gòu),具有更快的收斂速度。

        3. 合成拼貼數(shù)據(jù)pipeline

        為了解決高質(zhì)量編輯數(shù)據(jù)缺乏的問題,DreamOmni引入了合成拼貼數(shù)據(jù)pipeline。該pipeline能夠高效地生成用于各種編輯任務的數(shù)據(jù),包括基于指令的編輯(添加、刪除、替換)、圖像修復與擴展、拖拽編輯(平移、縮放、旋轉(zhuǎn))、參考圖像生成以及分割與檢測。該pipeline生成的合成數(shù)據(jù)顯著提升了T2I模型的準確性和生成質(zhì)量,特別是對于文本、形狀、顏色、位置和數(shù)量等屬性的生成。

        4. 模型訓練與實驗結(jié)果

        DreamOmni使用了2.5B參數(shù)的模型,并結(jié)合了1.25億張T2I圖像數(shù)據(jù)和6000萬張合成數(shù)據(jù)進行訓練。訓練過程分為三個階段,逐步提高圖像分辨率和訓練精度。實驗結(jié)果表明,DreamOmni在T2I生成、圖像修復、參考圖像生成、基于指令的編輯和拖動編輯等多個任務上均取得了顯著的成果,并在多個指標上超越了現(xiàn)有SOTA模型。

        5. 關(guān)鍵技術(shù)與優(yōu)勢

        DreamOmni的關(guān)鍵技術(shù)包括:多任務統(tǒng)一框架、高效的合成拼貼數(shù)據(jù)pipeline、基于DIT的模型結(jié)構(gòu)以及Rectified Flow優(yōu)化方法。其優(yōu)勢在于:統(tǒng)一框架提高了模型的泛化能力和部署效率;合成數(shù)據(jù)pipeline解決了高質(zhì)量編輯數(shù)據(jù)缺乏的問題;DIT結(jié)構(gòu)提高了模型的訓練效率和性能;Rectified Flow優(yōu)化方法提升了模型的生成質(zhì)量。

        6. 結(jié)論

        DreamOmni框架為T2I生成和圖像編輯提供了一個統(tǒng)一、高效且強大的解決方案。其多任務統(tǒng)一設(shè)計和高效的合成數(shù)據(jù)pipeline,顯著提升了模型的性能和泛化能力,為圖像生成與編輯領(lǐng)域帶來了新的突破。

        注意:文章中關(guān)于自動駕駛峰會的預告信息與DreamOmni模型的研究內(nèi)容無關(guān),已將其分開描述。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品lv| 好看的电影网站亚洲一区| 亚洲成人黄色在线| 亚洲日本在线免费观看| 老汉色老汉首页a亚洲| 日韩精品无码免费一区二区三区 | 亚洲国产成人VA在线观看| 无码一区二区三区亚洲人妻| 免费鲁丝片一级在线观看| 亚洲成av人片天堂网无码】| 国产午夜影视大全免费观看| 黄网站色视频免费看无下截| 亚洲国产成人久久综合区| 国产精品视频全国免费观看 | 国产成人免费在线| 国产色在线|亚洲| 免费国产在线观看| AAAAA级少妇高潮大片免费看| 亚洲国产美国国产综合一区二区 | 成年女人色毛片免费看| 青青青亚洲精品国产| 久99精品视频在线观看婷亚洲片国产一区一级在线 | 亚洲免费观看在线视频| 亚洲中文字幕久久精品蜜桃 | 免费一看一级毛片全播放| 国产精品高清免费网站| 久久精品国产亚洲AV麻豆不卡| 182tv免费观看在线视频| 亚洲色欲色欱wwW在线| 狠狠色婷婷狠狠狠亚洲综合| 野花香在线视频免费观看大全| 久久亚洲精品专区蓝色区| 免费一级一片一毛片| 无码成A毛片免费| 亚洲精华国产精华精华液好用 | 亚洲av成人无码久久精品| 午夜性色一区二区三区免费不卡视频| 亚洲av午夜电影在线观看| 亚洲AV中文无码字幕色三| 成人免费午夜视频| a国产成人免费视频|