圖像領(lǐng)域與LLM的完美碰撞:西湖大學(xué)揭示圖像鏈CoT的創(chuàng)新強(qiáng)化微調(diào)之路
原標(biāo)題:圖像領(lǐng)域再次與LLM一拍即合!idea撞車OpenAI強(qiáng)化微調(diào),西湖大學(xué)發(fā)布圖像鏈CoT
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):5880字
引言
本文總結(jié)了MAPLE實(shí)驗(yàn)室提出的一種通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化圖像生成模型去噪過(guò)程的方法。該方法旨在以更少的步驟生成高質(zhì)量圖像,并在多個(gè)圖像生成模型中實(shí)現(xiàn)了顯著的推理步驟減少和圖像質(zhì)量提升。
研究背景
當(dāng)前,擴(kuò)散模型和流匹配模型是主流的圖像生成技術(shù)。這些模型通過(guò)逐步去噪將從高斯噪聲中采樣的信號(hào)轉(zhuǎn)變?yōu)楦哔|(zhì)量圖像。然而,傳統(tǒng)的去噪過(guò)程面臨兩個(gè)問(wèn)題:一是無(wú)法保證最終圖像符合人類偏好,二是對(duì)不同復(fù)雜度的圖像采用相同的去噪策略。MAPLE實(shí)驗(yàn)室發(fā)現(xiàn),通過(guò)強(qiáng)化學(xué)習(xí)微調(diào),可以使模型自適應(yīng)地調(diào)整推理過(guò)程中的噪聲強(qiáng)度,從而以更少的步驟生成高質(zhì)量的圖像。
方法概述
MAPLE實(shí)驗(yàn)室將圖像生成過(guò)程視為類似于大語(yǔ)言模型(LLM)的思維鏈(CoT)。在模型推理過(guò)程中,利用時(shí)間預(yù)測(cè)模塊(TPM)動(dòng)態(tài)預(yù)測(cè)下一步去噪所需的擴(kuò)散時(shí)間。通過(guò)引入強(qiáng)化微調(diào)技術(shù),模型能夠在每一步中根據(jù)獎(jiǎng)勵(lì)模型評(píng)估圖像質(zhì)量,以確保生成過(guò)程符合人類偏好。
強(qiáng)化微調(diào)訓(xùn)練
在訓(xùn)練過(guò)程中,模型使用Beta分布對(duì)擴(kuò)散時(shí)間進(jìn)行采樣,并通過(guò)獎(jiǎng)勵(lì)函數(shù)綜合考慮生成圖像的質(zhì)量和去噪步數(shù)。研究顯示,經(jīng)過(guò)強(qiáng)化微調(diào)的模型在保持圖像質(zhì)量的同時(shí),平均減少約50%的生成步數(shù)。強(qiáng)化微調(diào)不僅提高了模型的生成效率,還顯著改善了生成圖像的自然度。
實(shí)驗(yàn)結(jié)果
在對(duì)Stable Diffusion 3、Flux-dev等先進(jìn)開(kāi)源圖像生成模型進(jìn)行強(qiáng)化微調(diào)訓(xùn)練后,實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)強(qiáng)化微調(diào)的模型普遍減少了推理步數(shù),同時(shí)圖像質(zhì)量保持穩(wěn)定。這一結(jié)果驗(yàn)證了強(qiáng)化微調(diào)作為一種通用的后訓(xùn)練方法在圖像生成領(lǐng)域的有效性。
結(jié)論
MAPLE實(shí)驗(yàn)室的研究展示了通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化多步去噪圖像生成過(guò)程的潛力。強(qiáng)化微調(diào)技術(shù)不僅顯著減少了推理步驟,還提升了生成圖像的質(zhì)量,表明該方法在圖像生成模型中的應(yīng)用與提升仍有廣闊的前景。
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。