国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<li id="4i884"></li>

擴散模型也能推理時Scaling，謝賽寧團隊重磅研究可能帶來文生圖新范式

AIGC動態(tài)11個月前發(fā)布機器之心

463 0 0

scaling 推理將是改進擴散模型的一個非常有前途的方向。

擴散模型也能推理時Scaling，謝賽寧團隊重磅研究可能帶來文生圖新范式

原標題：擴散模型也能推理時Scaling，謝賽寧團隊重磅研究可能帶來文生圖新范式
文章來源：機器之心
內(nèi)容字數(shù)：13441字

擴散模型推理時Scaling：超越單純增加去噪步驟

近期研究表明，增加LLM推理時間計算可以顯著提升性能。這項成果也引發(fā)了對于擴散模型推理時Scaling的探索。紐約大學(xué)謝賽寧團隊的研究表明，增加擴散模型推理時間計算同樣有效，可以顯著提升生成樣本質(zhì)量。該團隊構(gòu)建了一個通用搜索框架，系統(tǒng)性地探索了擴散模型的推理時Scaling情況，并取得了顯著成果。論文標題為：Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps。

1. 框架設(shè)計：驗證器與算法

該框架主要包含兩個設(shè)計軸：驗證器和算法。驗證器用于評估候選樣本質(zhì)量，可以是預(yù)訓(xùn)練模型，例如CLIP、DINO等，或直接使用FID和IS等指標作為Oracle驗證器。算法則用于尋找更好的噪聲候選項，論文中研究了隨機搜索、零階搜索和路徑搜索三種算法。

2. 驗證器與任務(wù)匹配

研究發(fā)現(xiàn)，驗證器的有效性取決于其與特定任務(wù)需求的匹配程度。例如，Aesthetic Score Predictor關(guān)注視覺質(zhì)量，而CLIP優(yōu)先考慮視覺-文本對齊，兩者在評估上存在差異，需要根據(jù)不同應(yīng)用場景選擇合適的驗證器，甚至可以采用驗證器集成的方法。

3. 算法選擇與性能

隨機搜索簡單高效，但容易導(dǎo)致“驗證器黑客”現(xiàn)象；零階搜索和路徑搜索則通過局部搜索緩解了這一問題，但性能取決于具體參數(shù)設(shè)置。實驗結(jié)果表明，三種算法都能有效提升采樣質(zhì)量，但沒有一種算法在所有情況下都最優(yōu)。

4. 文生圖場景中的應(yīng)用

研究團隊在DrawBench和T2I-CompBench數(shù)據(jù)集上驗證了該框架在文生圖任務(wù)中的有效性，并使用了Aesthetic Score Predictor、CLIPScore、ImageReward等多種驗證器，以及驗證器集成策略。結(jié)果表明，搜索方法可以有效提升文生圖模型的性能，并且不同驗證器在不同任務(wù)中的表現(xiàn)差異顯著。

5. 推理計算的有效利用

研究還探討了如何更有效地利用推理計算資源。實驗表明，通過調(diào)整搜索迭代次數(shù)、每次迭代的計算量以及最終生成的去噪步驟，可以找到計算最優(yōu)區(qū)域，從而在有限的計算資源下獲得更好的生成效果。此外，對小型模型進行推理時計算Scaling，可以有效提升性能，甚至在某些情況下超越不進行搜索的大型模型。