原標題:圖像領域再次與LLM一拍即合!idea撞車OpenAI強化微調,西湖大學發布圖像鏈CoT
文章來源:新智元
內容字數:5880字
引言
本文總結了MAPLE實驗室提出的一種通過強化學習優化圖像生成模型去噪過程的方法。該方法旨在以更少的步驟生成高質量圖像,并在多個圖像生成模型中實現了顯著的推理步驟減少和圖像質量提升。
研究背景
當前,擴散模型和流匹配模型是主流的圖像生成技術。這些模型通過逐步去噪將從高斯噪聲中采樣的信號轉變為高質量圖像。然而,傳統的去噪過程面臨兩個問題:一是無法保證最終圖像符合人類偏好,二是對不同復雜度的圖像采用相同的去噪策略。MAPLE實驗室發現,通過強化學習微調,可以使模型自適應地調整推理過程中的噪聲強度,從而以更少的步驟生成高質量的圖像。
方法概述
MAPLE實驗室將圖像生成過程視為類似于大語言模型(LLM)的思維鏈(CoT)。在模型推理過程中,利用時間預測模塊(TPM)動態預測下一步去噪所需的擴散時間。通過引入強化微調技術,模型能夠在每一步中根據獎勵模型評估圖像質量,以確保生成過程符合人類偏好。
強化微調訓練
在訓練過程中,模型使用Beta分布對擴散時間進行采樣,并通過獎勵函數綜合考慮生成圖像的質量和去噪步數。研究顯示,經過強化微調的模型在保持圖像質量的同時,平均減少約50%的生成步數。強化微調不僅提高了模型的生成效率,還顯著改善了生成圖像的自然度。
實驗結果
在對Stable Diffusion 3、Flux-dev等先進開源圖像生成模型進行強化微調訓練后,實驗結果表明,經過強化微調的模型普遍減少了推理步數,同時圖像質量保持穩定。這一結果驗證了強化微調作為一種通用的后訓練方法在圖像生成領域的有效性。
結論
MAPLE實驗室的研究展示了通過強化學習優化多步去噪圖像生成過程的潛力。強化微調技術不僅顯著減少了推理步驟,還提升了生成圖像的質量,表明該方法在圖像生成模型中的應用與提升仍有廣闊的前景。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。