無需訓(xùn)練,這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:無需訓(xùn)練,這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率
關(guān)鍵字:卷積,圖像,分辨率,模型,結(jié)構(gòu)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6035字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部近日,來自香港中文大學(xué) – 商湯科技聯(lián)合實(shí)驗(yàn)室等機(jī)構(gòu)的研究者們提出了FouriScale,該方法在利用預(yù)訓(xùn)練擴(kuò)散模型生成高分辨率圖像方面取得了顯著提升。近期,擴(kuò)散模型憑借其出色的性能已超越 GAN 和自回歸模型,成為生成式模型的主流選擇。基于擴(kuò)散模型的文本到圖像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現(xiàn)了生成高質(zhì)量圖像的驚人能力。通常,這些模型在特定分辨率下進(jìn)行訓(xùn)練,以確保在現(xiàn)有硬件上實(shí)現(xiàn)高效處理和穩(wěn)定的模型訓(xùn)練。圖 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 圖像的對(duì)比。[1]
然而,當(dāng)這些預(yù)訓(xùn)練的擴(kuò)散模型在超出訓(xùn)練分辨率時(shí)生成圖像,通常會(huì)出現(xiàn)模式重復(fù)和嚴(yán)重的人工偽影(artifacts)問題,如圖 1 最左側(cè)所示。
為了解決這一問題,來自香港中文大學(xué) – 商湯科技聯(lián)合實(shí)驗(yàn)室等機(jī)構(gòu)的研究者們?cè)谝黄撐闹猩钊胙芯苛藬U(kuò)散模型中常用的 UNet 結(jié)構(gòu)的卷積層,并從頻域分析的角度提出了 FouriScale, 如圖 2 所示。圖 2 FouriScale 的流程(橙色線)示意圖,目的是保證跨分辨率的一致性。
原文鏈接:無需訓(xùn)練,這個(gè)新方法實(shí)現(xiàn)了生成圖像尺寸、分辨率
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)