性能超過OminiControl
原標題:360AI推出DiT架構下"省錢版"ControlNet, 參數量驟減85%性能達到SOTA!
文章來源:量子位
內容字數:5382字
RelaCtrl: 高效可控圖像生成框架
本文總結了RelaCtrl團隊發表在凹非寺量子位 | 公眾號 QbitAI 的文章,介紹了一種新一代高效可控圖像生成框架RelaCtrl。該框架旨在解決現有基于Diffusion Transformer (DiT) 的可控生成方法參數量巨大、計算開銷大以及資源分配效率低下的問題。
1. 研究動機
現有的DiT可控生成方法,例如PixArt-δ和OminiControl,雖然提高了圖像生成的保真度和與文本描述的一致性,但存在兩個主要問題:一是參數量和計算量巨大,增加了訓練和推理負擔;二是忽略了不同Transformer層之間控制信息的相關性,導致計算資源分配效率低下。
2. RelaCtrl框架的核心思想
RelaCtrl框架通過優化控制信號的集成方式,實現了更高效的資源利用。其核心思想是:首先,通過分析不同Transformer層對控制信息的相關性,選擇最關鍵的層進行控制信息注入;其次,設計輕量級的控制模塊,減少參數量和計算量。
3. 關鍵技術
RelaCtrl框架包含兩個主要部分:
- DiT-ControlNet Relevance Prior: 該方法通過在推理階段跳過控制網絡中的不同層,并使用Fréchet Inception Distance (FID) 和Hausdorff Distance (HDD)評估生成圖像的質量和控制精度,從而計算得到“ControlNet相關性得分”。根據得分,選擇最關鍵的層進行控制信息集成。實驗表明,不同層對控制信息的相關性呈現先增加后減少的趨勢,前中心層相關性較高。
- Two Dimensions Shuffle Mixer (TDSM): 為了減輕控制分支的計算負擔,RelaCtrl提出了TDSM模塊,它將Transformer塊中的注意力層和前饋網絡層替換為一個更輕量級的操作。TDSM通過對token進行分組計算和隨亂,增強了token組之間的交互和建模能力,有效減少了參數數量和計算需求。
4. 實驗結果
實驗結果表明,RelaCtrl在多種條件下的可控生成任務上取得了顯著成果。與PixArt-δ相比,RelaCtrl在控制性能相當的情況下,參數量減少了約15%。與ControlNet相比,RelaCtrl在參數量和計算復雜度增加上更低,同時在控制指標、視覺質量和文本相似度上均實現了更優的表現。消融實驗也驗證了各個模塊的有效性,并且RelaCtrl兼容社區模型。
5. 結論
RelaCtrl框架通過精確的參數分配和控制策略,結合輕量化設計的控制模塊,有效解決了現有DiT可控生成方法的效率問題。其在參數量、計算復雜度和生成質量上的優勢,使其成為一種具有競爭力的高效可控圖像生成框架。
論文地址:http://arxiv.org/abs/2502.14377
項目主頁:https://360cvgroup.github.io/RelaCtrl/
代碼倉庫:https://github.com/360CVGroup/RelaCtrl
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破