NeurIPS 2024收錄!基于擴(kuò)散模型編碼器模塊的推理加速丨一作、南開大學(xué)博士生李森茂講座預(yù)告

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:NeurIPS 2024收錄!基于擴(kuò)散模型編碼器模塊的推理加速丨一作、南開大學(xué)博士生李森茂講座預(yù)告
關(guān)鍵字:模型,編碼器,南開大學(xué),圖像,時(shí)間
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
最近,文本到圖像的擴(kuò)散模型取得了顯著的進(jìn)步。值得注意的是,Stable Diffusion和DeepFloyd-IF是當(dāng)前開源社區(qū)中最成功的兩個(gè)擴(kuò)散模型。這些模型基于UNet架構(gòu),用途廣泛,可應(yīng)用于廣泛的任務(wù),包括圖像編輯、超分辨率、分割和對(duì)象檢測(cè)。擴(kuò)散模型的主要缺點(diǎn)之一是圖像生成的推理時(shí)間較慢。現(xiàn)有方法大多采用了蒸餾技術(shù),但這些方法對(duì)計(jì)算資源要求較高。
為了解決以上問題,來自南開大學(xué)的在讀博士生李森茂提出了一種基于擴(kuò)散模型編碼器模塊的推理加速的方法Faster Diffusion。相關(guān)論文為《Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference》,已收錄于NeurIPS 2024。Faster Diffusion是一種簡(jiǎn)單而有效的編碼器傳播方案,以加速針對(duì)不同任務(wù)集的擴(kuò)散采樣。其核心是在多個(gè)時(shí)間步中重復(fù)使用編碼器特征,加速了擴(kuò)散模型的采樣過程。
擴(kuò)散模型中的一個(gè)關(guān)鍵組件是用于噪聲預(yù)測(cè)的UNet。通過分析UNet在擴(kuò)散模型中的特性,發(fā)現(xiàn)編碼器特征在相鄰時(shí)間步之間變化平緩,具有
原文鏈接:NeurIPS 2024收錄!基于擴(kuò)散模型編碼器模塊的推理加速丨一作、南開大學(xué)博士生李森茂講座預(yù)告
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)