AIGC動態歡迎閱讀
原標題:可控圖像生成最新綜述!北郵開源20頁249篇文獻,包攬Text-to-Image Diffusion領域各種「條件」
關鍵字:條件,模型,圖像,文本,方法
文章來源:新智元
內容字數:11580字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】利用文本生成圖片(Text-to-Image, T2I)已經滿足不了人們的需要了,近期研究在T2I模型的基礎上引入了更多類型的條件來生成圖像,本文對這些方法進行了總結綜述。在視覺生成領域迅速發展的過程中,擴散模型已經徹底改變了這一領域的格局,通過其令人印象深刻的文本引導生成功能標志著能力方面的重大轉變。
然而,僅依賴文本來調節這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。
鑒于這種不足,許多研究旨在控制預訓練文本到圖像(T2I)模型以支持新條件。
在此綜述中,來自北京郵電大學的研究人員對關于具有 T2I 擴散模型可控性生成的文獻進行了徹底審查,涵蓋了該領域內理論基礎和實際進展。論文:https://arxiv.org/abs/2403.04279代碼:https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models
我們的審查從簡要介紹去噪擴散概率模型(DDPMs)和廣泛使用的 T2I 擴散模型基礎開始。
然后我們揭示了擴散模型的控制機制,并從理論上分析
原文鏈接:可控圖像生成最新綜述!北郵開源20頁249篇文獻,包攬Text-to-Image Diffusion領域各種「條件」
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。