超越ControlNet++!騰訊優(yōu)圖提出動態(tài)條件選擇新架構(gòu)
文生圖變得更可控了
原標(biāo)題:超越ControlNet++!騰訊優(yōu)圖提出動態(tài)條件選擇新架構(gòu)
文章來源:量子位
內(nèi)容字?jǐn)?shù):6329字
超越ControlNet++,騰訊優(yōu)圖等機(jī)構(gòu)提出DynamicControl框架,實現(xiàn)更可控的文生圖
近日,騰訊優(yōu)圖、南洋理工、浙大等研究機(jī)構(gòu)聯(lián)合推出DynamicControl,一個全新的文本生成圖像(T2I)框架,在可控性方面超越了ControlNet++。該框架直接將多模態(tài)大語言模型(MLLM)的推理能力集成到T2I任務(wù)中,并提出了一種新穎高效的多控制適配器,能夠自適應(yīng)地選擇不同的條件,實現(xiàn)動態(tài)多控制對齊。
1. 現(xiàn)有方法的局限性
之前的ControlNet類模型嘗試?yán)酶鞣N控制信號(布局約束、分割圖、深度圖等)來控制圖像生成。一些方法如UniControl、UniControlNet隨機(jī)選擇一種條件進(jìn)行訓(xùn)練,效率低下;另一些方法如AnyControl、ControlNet++使用固定數(shù)量的條件,無法根本解決多條件問題,也未考慮條件間的沖突。這些方法都存在局限性,難以充分利用多種控制條件的潛力。
2. DynamicControl框架的核心思想
DynamicControl框架的核心在于動態(tài)條件選擇。它能夠自適應(yīng)地選擇不同數(shù)量和類型的條件,并根據(jù)這些條件對生成圖像的影響進(jìn)行動態(tài)組合。該框架主要包含三個關(guān)鍵組件:
3. 雙循環(huán)控制器 (Double-Cycle Controller)
該控制器通過兩個一致性損失函數(shù)來評估輸入條件的重要性:條件一致性損失和反向圖像一致性損失。條件一致性損失優(yōu)化條件與生成圖像的匹配度;反向圖像一致性損失確保生成圖像與源圖像相似。這兩個損失函數(shù)共同作用,對輸入條件進(jìn)行初始重要性評估。
4. 條件評估器 (Condition Evaluator)
為了解決雙循環(huán)控制器依賴于預(yù)訓(xùn)練生成模型和源圖像的問題,DynamicControl引入了多模態(tài)大語言模型(MLLM)。MLLM對條件和指令進(jìn)行處理,生成更深層的語義信息,并通過Q-Former將其轉(zhuǎn)換為與擴(kuò)散模型兼容的嵌入。MLLM的預(yù)測結(jié)果由雙循環(huán)控制器的排序分?jǐn)?shù)進(jìn)行監(jiān)督,優(yōu)化條件的排序。
5. 多控制適配器 (Multi-Control Adapter)
多控制適配器用于自適應(yīng)地解釋復(fù)雜的控制信號,從文本提示和動態(tài)空間條件中提取多控制嵌入。它根據(jù)預(yù)訓(xùn)練的條件評估器對條件進(jìn)行評分,只選擇達(dá)到預(yù)定義閾值的條件參與后續(xù)的T2I模型優(yōu)化。該閾值是可學(xué)習(xí)的參數(shù),能夠自適應(yīng)地調(diào)整,避免條件沖突。
6. 實驗結(jié)果
實驗結(jié)果表明,DynamicControl在各種條件控制和數(shù)據(jù)集下都顯著增強(qiáng)了可控性,且沒有犧牲圖像質(zhì)量或圖像文本對齊。FID和CLIP分?jǐn)?shù)也驗證了其優(yōu)越性??梢暬Y(jié)果進(jìn)一步展示了DynamicControl生成的圖像更符合輸入條件。
7. 總結(jié)
DynamicControl框架通過引入MLLM和動態(tài)條件選擇機(jī)制,有效解決了現(xiàn)有方法在多條件可控性方面的局限性。它能夠更靈活、高效地利用多種控制條件,生成更符合預(yù)期且高質(zhì)量的圖像,為可控視覺生成領(lǐng)域帶來了新的突破。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破