Faster Diffusion | 深入挖掘UNet編碼器作用,加速41%采樣速度,效果幾乎不下降
AIGC動態(tài)歡迎閱讀
原標題:Faster Diffusion | 深入挖掘UNet編碼器作用,加速41%采樣速度,效果幾乎不下降
關鍵字:編碼器,時間,解碼器,步長,特征
文章來源:算法邦
內容字數(shù):5047字
內容摘要:
直播預告 | 今晚7點,「AI新青年講座」232講正式開講,清華大學在讀博士劉世隆主講《LLaVA-Plus:學習使用視覺工具插件的多模態(tài)智能體》,歡迎掃名。https://arxiv.org/pdf/2312.09608.pdfhttps://github.com/hutaiHang/Faster-Diffusion
擴散模型中的一個關鍵組件是用于噪聲預測的UNet。雖然一些工作已經探索了UNet解碼器的基本屬性,但其編碼器在很大程度上仍未被探索。
我們首次對UNet編碼器進行了全面的研究。就其在推理過程中的變化等重要問題提供了不一樣的發(fā)現(xiàn):我們發(fā)現(xiàn)編碼器特征平緩地變化,而解碼器特征在不同的時間步長上表現(xiàn)出實質性的變化。這種發(fā)現(xiàn)啟發(fā)了我們忽略某些相鄰時間步長的編碼器,并循環(huán)地將先前時間步長中的編碼器特征重新用于解碼器。
進一步基于這一觀察,我們介紹了一種簡單而有效的編碼器傳播方案,以加速針對不同任務集的擴散采樣。受益于我們的傳播方案,我們能夠在某些相鄰的時間步長并行地執(zhí)行解碼器。
此外,我們引入了一種先驗噪聲注入方法來改善生成圖像中的紋理細節(jié)。
除了標準的文本到圖像任務外,我們還
原文鏈接:Faster Diffusion | 深入挖掘UNet編碼器作用,加速41%采樣速度,效果幾乎不下降
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發(fā),提供技術文章、講座、在線研討會。