中科院等萬(wàn)字詳解:最前沿圖像擴(kuò)散模型綜述
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:中科院等萬(wàn)字詳解:最前沿圖像擴(kuò)散模型綜述
關(guān)鍵字:模型,圖像,方法,圖像編輯,編輯
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):8294字
內(nèi)容摘要:
黃健成 投稿量子位 | 公眾號(hào) QbitAI針對(duì)圖像編輯中的擴(kuò)散模型,中科院聯(lián)合Adobe和蘋(píng)果公司的研究人員發(fā)布了一篇重磅綜述。
全文長(zhǎng)達(dá)26頁(yè),共1.5萬(wàn)余詞,涵蓋297篇文獻(xiàn),全面研究了圖像編輯的各種前沿方法。
同時(shí),作者還提出了全新的benchmark,為研究者提供了便捷的學(xué)習(xí)參考工具。
在這份綜述中,作者從理論和實(shí)踐層面,詳盡總結(jié)了使用擴(kuò)散模型進(jìn)行圖像編輯的現(xiàn)有方法。
作者從學(xué)習(xí)策略、輸入條件等多個(gè)角度對(duì)相關(guān)成果進(jìn)行分類(lèi),并展開(kāi)了深入分析。
為了進(jìn)一步評(píng)估模型性能,作者還提出了一個(gè)測(cè)評(píng)基準(zhǔn),并展望了未來(lái)研究的一些潛在方向。
△基于擴(kuò)散模型的圖像編輯成果速覽下面,作者將從任務(wù)分類(lèi)、實(shí)現(xiàn)方式、測(cè)試基準(zhǔn)和未來(lái)展望四個(gè)方面介紹基于擴(kuò)散模型的圖像編輯成果。
圖像編輯的分類(lèi)除了在圖像生成、恢復(fù)和增強(qiáng)方面取得的重大進(jìn)步外,擴(kuò)散模型在圖像編輯方面也實(shí)現(xiàn)了顯著突破,相比之前占主導(dǎo)地位的生成對(duì)抗網(wǎng)絡(luò)(GANs),前者具有更強(qiáng)的可控性。
不同于“從零開(kāi)始”的圖像生成,以及旨在修復(fù)模糊圖像、提高質(zhì)量的圖像恢復(fù)和增強(qiáng),圖像編輯涉及對(duì)現(xiàn)有圖像外觀、結(jié)構(gòu)或內(nèi)容的修改,包括添加對(duì)象、替換背景和改變紋理等任務(wù)
原文鏈接:中科院等萬(wàn)字詳解:最前沿圖像擴(kuò)散模型綜述
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破