360AI推出DiT架構(gòu)下"省錢版"ControlNet, 參數(shù)量驟減85%性能達到SOTA!
性能超過OminiControl
原標題:360AI推出DiT架構(gòu)下"省錢版"ControlNet, 參數(shù)量驟減85%性能達到SOTA!
文章來源:量子位
內(nèi)容字數(shù):5382字
RelaCtrl: 高效可控圖像生成框架
本文總結(jié)了RelaCtrl團隊發(fā)表在凹非寺量子位 | 公眾號 QbitAI 的文章,介紹了一種新一代高效可控圖像生成框架RelaCtrl。該框架旨在解決現(xiàn)有基于Diffusion Transformer (DiT) 的可控生成方法參數(shù)量巨大、計算開銷大以及資源分配效率低下的問題。
1. 研究動機
現(xiàn)有的DiT可控生成方法,例如PixArt-δ和OminiControl,雖然提高了圖像生成的保真度和與文本描述的一致性,但存在兩個主要問題:一是參數(shù)量和計算量巨大,增加了訓(xùn)練和推理負擔(dān);二是忽略了不同Transformer層之間控制信息的相關(guān)性,導(dǎo)致計算資源分配效率低下。
2. RelaCtrl框架的核心思想
RelaCtrl框架通過優(yōu)化控制信號的集成方式,實現(xiàn)了更高效的資源利用。其核心思想是:首先,通過分析不同Transformer層對控制信息的相關(guān)性,選擇最關(guān)鍵的層進行控制信息注入;其次,設(shè)計輕量級的控制模塊,減少參數(shù)量和計算量。
3. 關(guān)鍵技術(shù)
RelaCtrl框架包含兩個主要部分:
- DiT-ControlNet Relevance Prior: 該方法通過在推理階段跳過控制網(wǎng)絡(luò)中的不同層,并使用Fréchet Inception Distance (FID) 和Hausdorff Distance (HDD)評估生成圖像的質(zhì)量和控制精度,從而計算得到“ControlNet相關(guān)性得分”。根據(jù)得分,選擇最關(guān)鍵的層進行控制信息集成。實驗表明,不同層對控制信息的相關(guān)性呈現(xiàn)先增加后減少的趨勢,前中心層相關(guān)性較高。
- Two Dimensions Shuffle Mixer (TDSM): 為了減輕控制分支的計算負擔(dān),RelaCtrl提出了TDSM模塊,它將Transformer塊中的注意力層和前饋網(wǎng)絡(luò)層替換為一個更輕量級的操作。TDSM通過對token進行分組計算和隨亂,增強了token組之間的交互和建模能力,有效減少了參數(shù)數(shù)量和計算需求。
4. 實驗結(jié)果
實驗結(jié)果表明,RelaCtrl在多種條件下的可控生成任務(wù)上取得了顯著成果。與PixArt-δ相比,RelaCtrl在控制性能相當(dāng)?shù)那闆r下,參數(shù)量減少了約15%。與ControlNet相比,RelaCtrl在參數(shù)量和計算復(fù)雜度增加上更低,同時在控制指標、視覺質(zhì)量和文本相似度上均實現(xiàn)了更優(yōu)的表現(xiàn)。消融實驗也驗證了各個模塊的有效性,并且RelaCtrl兼容社區(qū)模型。
5. 結(jié)論
RelaCtrl框架通過精確的參數(shù)分配和控制策略,結(jié)合輕量化設(shè)計的控制模塊,有效解決了現(xiàn)有DiT可控生成方法的效率問題。其在參數(shù)量、計算復(fù)雜度和生成質(zhì)量上的優(yōu)勢,使其成為一種具有競爭力的高效可控圖像生成框架。
論文地址:http://arxiv.org/abs/2502.14377
項目主頁:https://360cvgroup.github.io/RelaCtrl/
代碼倉庫:https://github.com/360CVGroup/RelaCtrl
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破