360AI推出DiT架構下"省錢版"ControlNet, 參數量驟減85%性能達到SOTA！

性能超過OminiControl

原標題：360AI推出DiT架構下"省錢版"ControlNet, 參數量驟減85%性能達到SOTA！
文章來源：量子位
內容字數：5382字

RelaCtrl: 高效可控圖像生成框架

本文總結了RelaCtrl團隊發表在凹非寺量子位 | 公眾號 QbitAI 的文章，介紹了一種新一代高效可控圖像生成框架RelaCtrl。該框架旨在解決現有基于Diffusion Transformer (DiT) 的可控生成方法參數量巨大、計算開銷大以及資源分配效率低下的問題。

1. 研究動機

現有的DiT可控生成方法，例如PixArt-δ和OminiControl，雖然提高了圖像生成的保真度和與文本描述的一致性，但存在兩個主要問題：一是參數量和計算量巨大，增加了訓練和推理負擔；二是忽略了不同Transformer層之間控制信息的相關性，導致計算資源分配效率低下。

2. RelaCtrl框架的核心思想

RelaCtrl框架通過優化控制信號的集成方式，實現了更高效的資源利用。其核心思想是：首先，通過分析不同Transformer層對控制信息的相關性，選擇最關鍵的層進行控制信息注入；其次，設計輕量級的控制模塊，減少參數量和計算量。

3. 關鍵技術

RelaCtrl框架包含兩個主要部分：

DiT-ControlNet Relevance Prior: 該方法通過在推理階段跳過控制網絡中的不同層，并使用Fréchet Inception Distance (FID) 和Hausdorff Distance (HDD)評估生成圖像的質量和控制精度，從而計算得到“ControlNet相關性得分”。根據得分，選擇最關鍵的層進行控制信息集成。實驗表明，不同層對控制信息的相關性呈現先增加后減少的趨勢，前中心層相關性較高。
Two Dimensions Shuffle Mixer (TDSM): 為了減輕控制分支的計算負擔，RelaCtrl提出了TDSM模塊，它將Transformer塊中的注意力層和前饋網絡層替換為一個更輕量級的操作。TDSM通過對token進行分組計算和隨亂，增強了token組之間的交互和建模能力，有效減少了參數數量和計算需求。

4. 實驗結果

實驗結果表明，RelaCtrl在多種條件下的可控生成任務上取得了顯著成果。與PixArt-δ相比，RelaCtrl在控制性能相當的情況下，參數量減少了約15%。與ControlNet相比，RelaCtrl在參數量和計算復雜度增加上更低，同時在控制指標、視覺質量和文本相似度上均實現了更優的表現。消融實驗也驗證了各個模塊的有效性，并且RelaCtrl兼容社區模型。

5. 結論

RelaCtrl框架通過精確的參數分配和控制策略，結合輕量化設計的控制模塊，有效解決了現有DiT可控生成方法的效率問題。其在參數量、計算復雜度和生成質量上的優勢，使其成為一種具有競爭力的高效可控圖像生成框架。

論文地址：http://arxiv.org/abs/2502.14377

項目主頁：https://360cvgroup.github.io/RelaCtrl/

代碼倉庫：https://github.com/360CVGroup/RelaCtrl

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # ControlNet輕量化 # SOTA性能 # 低成本AI # 參數量減少 # 模型壓縮

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

360AI推出DiT架構下"省錢版"ControlNet, 參數量驟減85%性能達到SOTA！

性能超過OminiControl

RelaCtrl: 高效可控圖像生成框架

1. 研究動機

2. RelaCtrl框架的核心思想

3. 關鍵技術

4. 實驗結果

5. 結論

聯系作者

特斯拉 FSD 終于入華，但它連紅燈都沒認全

DeepSeek開源周壓軸神器：3FS文件系統，讀取吞吐量達6.6TiB/s！再次打臉OpenAI？

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點