360AI推出DiT架構(gòu)下"省錢版"ControlNet, 參數(shù)量驟減85%性能達(dá)到SOTA!
性能超過OminiControl
原標(biāo)題:360AI推出DiT架構(gòu)下"省錢版"ControlNet, 參數(shù)量驟減85%性能達(dá)到SOTA!
文章來源:量子位
內(nèi)容字?jǐn)?shù):5382字
RelaCtrl: 高效可控圖像生成框架
本文總結(jié)了RelaCtrl團(tuán)隊(duì)發(fā)表在凹非寺量子位 | 公眾號(hào) QbitAI 的文章,介紹了一種新一代高效可控圖像生成框架RelaCtrl。該框架旨在解決現(xiàn)有基于Diffusion Transformer (DiT) 的可控生成方法參數(shù)量巨大、計(jì)算開銷大以及資源分配效率低下的問題。
1. 研究動(dòng)機(jī)
現(xiàn)有的DiT可控生成方法,例如PixArt-δ和OminiControl,雖然提高了圖像生成的保真度和與文本描述的一致性,但存在兩個(gè)主要問題:一是參數(shù)量和計(jì)算量巨大,增加了訓(xùn)練和推理負(fù)擔(dān);二是忽略了不同Transformer層之間控制信息的相關(guān)性,導(dǎo)致計(jì)算資源分配效率低下。
2. RelaCtrl框架的核心思想
RelaCtrl框架通過優(yōu)化控制信號(hào)的集成方式,實(shí)現(xiàn)了更高效的資源利用。其核心思想是:首先,通過分析不同Transformer層對(duì)控制信息的相關(guān)性,選擇最關(guān)鍵的層進(jìn)行控制信息注入;其次,設(shè)計(jì)輕量級(jí)的控制模塊,減少參數(shù)量和計(jì)算量。
3. 關(guān)鍵技術(shù)
RelaCtrl框架包含兩個(gè)主要部分:
- DiT-ControlNet Relevance Prior: 該方法通過在推理階段跳過控制網(wǎng)絡(luò)中的不同層,并使用Fréchet Inception Distance (FID) 和Hausdorff Distance (HDD)評(píng)估生成圖像的質(zhì)量和控制精度,從而計(jì)算得到“ControlNet相關(guān)性得分”。根據(jù)得分,選擇最關(guān)鍵的層進(jìn)行控制信息集成。實(shí)驗(yàn)表明,不同層對(duì)控制信息的相關(guān)性呈現(xiàn)先增加后減少的趨勢(shì),前中心層相關(guān)性較高。
- Two Dimensions Shuffle Mixer (TDSM): 為了減輕控制分支的計(jì)算負(fù)擔(dān),RelaCtrl提出了TDSM模塊,它將Transformer塊中的注意力層和前饋網(wǎng)絡(luò)層替換為一個(gè)更輕量級(jí)的操作。TDSM通過對(duì)token進(jìn)行分組計(jì)算和隨亂,增強(qiáng)了token組之間的交互和建模能力,有效減少了參數(shù)數(shù)量和計(jì)算需求。
4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,RelaCtrl在多種條件下的可控生成任務(wù)上取得了顯著成果。與PixArt-δ相比,RelaCtrl在控制性能相當(dāng)?shù)那闆r下,參數(shù)量減少了約15%。與ControlNet相比,RelaCtrl在參數(shù)量和計(jì)算復(fù)雜度增加上更低,同時(shí)在控制指標(biāo)、視覺質(zhì)量和文本相似度上均實(shí)現(xiàn)了更優(yōu)的表現(xiàn)。消融實(shí)驗(yàn)也驗(yàn)證了各個(gè)模塊的有效性,并且RelaCtrl兼容社區(qū)模型。
5. 結(jié)論
RelaCtrl框架通過精確的參數(shù)分配和控制策略,結(jié)合輕量化設(shè)計(jì)的控制模塊,有效解決了現(xiàn)有DiT可控生成方法的效率問題。其在參數(shù)量、計(jì)算復(fù)雜度和生成質(zhì)量上的優(yōu)勢(shì),使其成為一種具有競(jìng)爭(zhēng)力的高效可控圖像生成框架。
論文地址:http://arxiv.org/abs/2502.14377
項(xiàng)目主頁:https://360cvgroup.github.io/RelaCtrl/
代碼倉庫:https://github.com/360CVGroup/RelaCtrl
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破