文生圖變得更可控了
原標題:超越ControlNet++!騰訊優圖提出動態條件選擇新架構
文章來源:量子位
內容字數:6329字
超越ControlNet++,騰訊優圖等機構提出DynamicControl框架,實現更可控的文生圖
近日,騰訊優圖、南洋理工、浙大等研究機構聯合推出DynamicControl,一個全新的文本生成圖像(T2I)框架,在可控性方面超越了ControlNet++。該框架直接將多模態大語言模型(MLLM)的推理能力集成到T2I任務中,并提出了一種新穎高效的多控制適配器,能夠自適應地選擇不同的條件,實現動態多控制對齊。
1. 現有方法的局限性
之前的ControlNet類模型嘗試利用各種控制信號(布局約束、分割圖、深度圖等)來控制圖像生成。一些方法如UniControl、UniControlNet隨機選擇一種條件進行訓練,效率低下;另一些方法如AnyControl、ControlNet++使用固定數量的條件,無法根本解決多條件問題,也未考慮條件間的沖突。這些方法都存在局限性,難以充分利用多種控制條件的潛力。
2. DynamicControl框架的核心思想
DynamicControl框架的核心在于動態條件選擇。它能夠自適應地選擇不同數量和類型的條件,并根據這些條件對生成圖像的影響進行動態組合。該框架主要包含三個關鍵組件:
3. 雙循環控制器 (Double-Cycle Controller)
該控制器通過兩個一致性損失函數來評估輸入條件的重要性:條件一致性損失和反向圖像一致性損失。條件一致性損失優化條件與生成圖像的匹配度;反向圖像一致性損失確保生成圖像與源圖像相似。這兩個損失函數共同作用,對輸入條件進行初始重要性評估。
4. 條件評估器 (Condition Evaluator)
為了解決雙循環控制器依賴于預訓練生成模型和源圖像的問題,DynamicControl引入了多模態大語言模型(MLLM)。MLLM對條件和指令進行處理,生成更深層的語義信息,并通過Q-Former將其轉換為與擴散模型兼容的嵌入。MLLM的預測結果由雙循環控制器的排序分數進行監督,優化條件的排序。
5. 多控制適配器 (Multi-Control Adapter)
多控制適配器用于自適應地解釋復雜的控制信號,從文本提示和動態空間條件中提取多控制嵌入。它根據預訓練的條件評估器對條件進行評分,只選擇達到預定義閾值的條件參與后續的T2I模型優化。該閾值是可學習的參數,能夠自適應地調整,避免條件沖突。
6. 實驗結果
實驗結果表明,DynamicControl在各種條件控制和數據集下都顯著增強了可控性,且沒有犧牲圖像質量或圖像文本對齊。FID和CLIP分數也驗證了其優越性??梢暬Y果進一步展示了DynamicControl生成的圖像更符合輸入條件。
7. 總結
DynamicControl框架通過引入MLLM和動態條件選擇機制,有效解決了現有方法在多條件可控性方面的局限性。它能夠更靈活、高效地利用多種控制條件,生成更符合預期且高質量的圖像,為可控視覺生成領域帶來了新的突破。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破