可控圖像生成最新綜述！北郵開源20頁249篇文獻，包攬Text-to-Image Diffusion領域各種「條件」

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：可控圖像生成最新綜述！北郵開源20頁249篇文獻，包攬Text-to-Image Diffusion領域各種「條件」
關鍵字：條件,模型,圖像,文本,方法
文章來源：新智元
內容字數：11580字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】利用文本生成圖片（Text-to-Image, T2I）已經滿足不了人們的需要了，近期研究在T2I模型的基礎上引入了更多類型的條件來生成圖像，本文對這些方法進行了總結綜述。在視覺生成領域迅速發展的過程中，擴散模型已經徹底改變了這一領域的格局，通過其令人印象深刻的文本引導生成功能標志著能力方面的重大轉變。
然而，僅依賴文本來調節這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。
鑒于這種不足，許多研究旨在控制預訓練文本到圖像（T2I）模型以支持新條件。
在此綜述中，來自北京郵電大學的研究人員對關于具有 T2I 擴散模型可控性生成的文獻進行了徹底審查，涵蓋了該領域內理論基礎和實際進展。論文：https://arxiv.org/abs/2403.04279代碼：https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models
我們的審查從簡要介紹去噪擴散概率模型（DDPMs）和廣泛使用的 T2I 擴散模型基礎開始。
然后我們揭示了擴散模型的控制機制，并從理論上分析