scaling 推理將是改進擴散模型的一個非常有前途的方向。
原標題:擴散模型也能推理時Scaling,謝賽寧團隊重磅研究可能帶來文生圖新范式
文章來源:機器之心
內容字數:13441字
擴散模型推理時Scaling:超越單純增加去噪步驟
近期研究表明,增加LLM推理時間計算可以顯著提升性能。這項成果也引發了對于擴散模型推理時Scaling的探索。紐約大學謝賽寧團隊的研究表明,增加擴散模型推理時間計算同樣有效,可以顯著提升生成樣本質量。該團隊構建了一個通用搜索框架,系統性地探索了擴散模型的推理時Scaling情況,并取得了顯著成果。論文標題為:Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps。
1. 框架設計:驗證器與算法
該框架主要包含兩個設計軸:驗證器和算法。驗證器用于評估候選樣本質量,可以是預訓練模型,例如CLIP、DINO等,或直接使用FID和IS等指標作為Oracle驗證器。算法則用于尋找更好的噪聲候選項,論文中研究了隨機搜索、零階搜索和路徑搜索三種算法。
2. 驗證器與任務匹配
研究發現,驗證器的有效性取決于其與特定任務需求的匹配程度。例如,Aesthetic Score Predictor關注視覺質量,而CLIP優先考慮視覺-文本對齊,兩者在評估上存在差異,需要根據不同應用場景選擇合適的驗證器,甚至可以采用驗證器集成的方法。
3. 算法選擇與性能
隨機搜索簡單高效,但容易導致“驗證器黑客”現象;零階搜索和路徑搜索則通過局部搜索緩解了這一問題,但性能取決于具體參數設置。實驗結果表明,三種算法都能有效提升采樣質量,但沒有一種算法在所有情況下都最優。
4. 文生圖場景中的應用
研究團隊在DrawBench和T2I-CompBench數據集上驗證了該框架在文生圖任務中的有效性,并使用了Aesthetic Score Predictor、CLIPScore、ImageReward等多種驗證器,以及驗證器集成策略。結果表明,搜索方法可以有效提升文生圖模型的性能,并且不同驗證器在不同任務中的表現差異顯著。
5. 推理計算的有效利用
研究還探討了如何更有效地利用推理計算資源。實驗表明,通過調整搜索迭代次數、每次迭代的計算量以及最終生成的去噪步驟,可以找到計算最優區域,從而在有限的計算資源下獲得更好的生成效果。此外,對小型模型進行推理時計算Scaling,可以有效提升性能,甚至在某些情況下超越不進行搜索的大型模型。
6. 搜索與微調的兼容性
研究表明,搜索方法可以與微調方法兼容,例如使用DPO微調的Stable Diffusion XL模型,搜索方法仍然可以進一步提升其性能,這為模型優化提供了新的思路。
總而言之,該研究證明了在擴散模型推理階段進行Scaling的有效性,提出了一個通用的搜索框架,并對驗證器選擇、算法設計以及計算資源分配等方面進行了深入探討,為提升擴散模型生成質量提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺