無需訓(xùn)練，這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布機(jī)器之心

無需訓(xùn)練，這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率自由

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：無需訓(xùn)練，這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率
關(guān)鍵字：卷積,圖像,分辨率,模型,結(jié)構(gòu)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：6035字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部近日，來自香港中文大學(xué) – 商湯科技聯(lián)合實(shí)驗(yàn)室等機(jī)構(gòu)的研究者們提出了FouriScale，該方法在利用預(yù)訓(xùn)練擴(kuò)散模型生成高分辨率圖像方面取得了顯著提升。近期，擴(kuò)散模型憑借其出色的性能已超越 GAN 和自回歸模型，成為生成式模型的主流選擇。基于擴(kuò)散模型的文本到圖像生成模型（如 SD、SDXL、Midjourney 和 Imagen）展現(xiàn)了生成高質(zhì)量圖像的驚人能力。通常，這些模型在特定分辨率下進(jìn)行訓(xùn)練，以確保在現(xiàn)有硬件上實(shí)現(xiàn)高效處理和穩(wěn)定的模型訓(xùn)練。圖 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 圖像的對(duì)比。[1]
然而，當(dāng)這些預(yù)訓(xùn)練的擴(kuò)散模型在超出訓(xùn)練分辨率時(shí)生成圖像，通常會(huì)出現(xiàn)模式重復(fù)和嚴(yán)重的人工偽影（artifacts）問題，如圖 1 最左側(cè)所示。
為了解決這一問題，來自香港中文大學(xué) – 商湯科技聯(lián)合實(shí)驗(yàn)室等機(jī)構(gòu)的研究者們?cè)谝黄撐闹猩钊胙芯苛藬U(kuò)散模型中常用的 UNet 結(jié)構(gòu)的卷積層，并從頻域分析的角度提出了 FouriScale, 如圖 2 所示。圖 2 FouriScale 的流程（橙色線）示意圖，目的是保證跨分辨率的一致性。

原文鏈接：無需訓(xùn)練，這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率