AIGC動態歡迎閱讀
原標題:無需訓練,這個新方法實現了生成圖像尺寸、分辨率
關鍵字:卷積,圖像,分辨率,模型,結構
文章來源:機器之心
內容字數:6035字
內容摘要:
機器之心專欄
機器之心編輯部近日,來自香港中文大學 – 商湯科技聯合實驗室等機構的研究者們提出了FouriScale,該方法在利用預訓練擴散模型生成高分辨率圖像方面取得了顯著提升。近期,擴散模型憑借其出色的性能已超越 GAN 和自回歸模型,成為生成式模型的主流選擇。基于擴散模型的文本到圖像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現了生成高質量圖像的驚人能力。通常,這些模型在特定分辨率下進行訓練,以確保在現有硬件上實現高效處理和穩定的模型訓練。圖 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 圖像的對比。[1]
然而,當這些預訓練的擴散模型在超出訓練分辨率時生成圖像,通常會出現模式重復和嚴重的人工偽影(artifacts)問題,如圖 1 最左側所示。
為了解決這一問題,來自香港中文大學 – 商湯科技聯合實驗室等機構的研究者們在一篇論文中深入研究了擴散模型中常用的 UNet 結構的卷積層,并從頻域分析的角度提出了 FouriScale, 如圖 2 所示。圖 2 FouriScale 的流程(橙色線)示意圖,目的是保證跨分辨率的一致性。
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...