生成擴散模型漫談：信噪比與大圖生成

AIGC動態(tài)2年前 (2024)發(fā)布算法邦

生成擴散模型漫談：信噪比與大圖生成

AIGC動態(tài)歡迎閱讀

原標題：生成擴散模型漫談：信噪比與大圖生成
關鍵字：模型,解讀,圖像,分辨率,高分辨率
文章來源：算法邦
內(nèi)容字數(shù)：8036字

內(nèi)容摘要：

導讀本文作者為蘇劍林，來自月之暗面。這篇文章介紹了 Simple Diffusion，這是一篇探索如何直接在 Pixel 空間中端到端地訓練圖像擴散模型的工作，利用了信噪比的概念介紹了高分辨率擴散模型的訓練效率低問題，并由此來指標調(diào)整新的 noise schedule，以及探索了如何盡可能節(jié)約算力成本地 scale up 模型架構。盤點主流的圖像擴散模型作品，我們會發(fā)現(xiàn)一個特點：當前多數(shù)做高分辨率圖像生成（下面簡稱“大圖生成”）的工作，都是先通過 Encoder 變換到 Latent 空間進行的（即 LDM，Latent Diffusion Model [1] ），直接在原始 Pixel 空間訓練的擴散模型，大多數(shù)分辨率都不超過 6464，而恰好，LDM 通過 AutoEncoder 變換后的 Latent，大小通常也不超過 6464。
這就自然引出了一系列問題：擴散模型是不是對于高分辨率生成存在固有困難？能否在 Pixel 空間直接生成高分辨率圖像？
論文《Simple diffusion: End-to-end diffusion for high resolution image

原文鏈接：生成擴散模型漫談：信噪比與大圖生成