擴(kuò)散模型也能推理時Scaling,謝賽寧團(tuán)隊重磅研究可能帶來文生圖新范式
scaling 推理將是改進(jìn)擴(kuò)散模型的一個非常有前途的方向。
原標(biāo)題:擴(kuò)散模型也能推理時Scaling,謝賽寧團(tuán)隊重磅研究可能帶來文生圖新范式
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):13441字
擴(kuò)散模型推理時Scaling:超越單純增加去噪步驟
近期研究表明,增加LLM推理時間計算可以顯著提升性能。這項成果也引發(fā)了對于擴(kuò)散模型推理時Scaling的探索。紐約大學(xué)謝賽寧團(tuán)隊的研究表明,增加擴(kuò)散模型推理時間計算同樣有效,可以顯著提升生成樣本質(zhì)量。該團(tuán)隊構(gòu)建了一個通用搜索框架,系統(tǒng)性地探索了擴(kuò)散模型的推理時Scaling情況,并取得了顯著成果。論文標(biāo)題為:Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps。
1. 框架設(shè)計:驗證器與算法
該框架主要包含兩個設(shè)計軸:驗證器和算法。驗證器用于評估候選樣本質(zhì)量,可以是預(yù)訓(xùn)練模型,例如CLIP、DINO等,或直接使用FID和IS等指標(biāo)作為Oracle驗證器。算法則用于尋找更好的噪聲候選項,論文中研究了隨機(jī)搜索、零階搜索和路徑搜索三種算法。
2. 驗證器與任務(wù)匹配
研究發(fā)現(xiàn),驗證器的有效性取決于其與特定任務(wù)需求的匹配程度。例如,Aesthetic Score Predictor關(guān)注視覺質(zhì)量,而CLIP優(yōu)先考慮視覺-文本對齊,兩者在評估上存在差異,需要根據(jù)不同應(yīng)用場景選擇合適的驗證器,甚至可以采用驗證器集成的方法。
3. 算法選擇與性能
隨機(jī)搜索簡單高效,但容易導(dǎo)致“驗證器黑客”現(xiàn)象;零階搜索和路徑搜索則通過局部搜索緩解了這一問題,但性能取決于具體參數(shù)設(shè)置。實驗結(jié)果表明,三種算法都能有效提升采樣質(zhì)量,但沒有一種算法在所有情況下都最優(yōu)。
4. 文生圖場景中的應(yīng)用
研究團(tuán)隊在DrawBench和T2I-CompBench數(shù)據(jù)集上驗證了該框架在文生圖任務(wù)中的有效性,并使用了Aesthetic Score Predictor、CLIPScore、ImageReward等多種驗證器,以及驗證器集成策略。結(jié)果表明,搜索方法可以有效提升文生圖模型的性能,并且不同驗證器在不同任務(wù)中的表現(xiàn)差異顯著。
5. 推理計算的有效利用
研究還探討了如何更有效地利用推理計算資源。實驗表明,通過調(diào)整搜索迭代次數(shù)、每次迭代的計算量以及最終生成的去噪步驟,可以找到計算最優(yōu)區(qū)域,從而在有限的計算資源下獲得更好的生成效果。此外,對小型模型進(jìn)行推理時計算Scaling,可以有效提升性能,甚至在某些情況下超越不進(jìn)行搜索的大型模型。
6. 搜索與微調(diào)的兼容性
研究表明,搜索方法可以與微調(diào)方法兼容,例如使用DPO微調(diào)的Stable Diffusion XL模型,搜索方法仍然可以進(jìn)一步提升其性能,這為模型優(yōu)化提供了新的思路。
總而言之,該研究證明了在擴(kuò)散模型推理階段進(jìn)行Scaling的有效性,提出了一個通用的搜索框架,并對驗證器選擇、算法設(shè)計以及計算資源分配等方面進(jìn)行了深入探討,為提升擴(kuò)散模型生成質(zhì)量提供了新的方向。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺