首次系統性地探討了CoT在自回歸圖像生成中的適用性和潛在優勢。
原標題:圖像生成迎來CoT時刻!港中文首次提出文生圖的o1推理和inference scaling新范式!
文章來源:智猩猩GenAI
內容字數:5329字
利用思維鏈提升圖像生成質量:Verify & Reinforce策略
本文總結了香港中文大學、北京大學和上海AI Lab的研究成果,該研究探討了如何將思維鏈(Chain-of-Thought,CoT)推理策略應用于圖像生成領域,以提升圖像質量和文本一致性。研究表明,CoT策略能夠顯著提高自回歸圖像生成的性能。
1. 研究背景與挑戰
CoT推理在大型語言模型(LLM)和多模態大模型(LMM)中已取得顯著成功,尤其在數學推理和科學計算方面。然而,將其應用于自回歸圖像生成任務中,如何有效驗證和強化生成過程仍是一個挑戰。該研究基于自回歸圖像生成與LLM在離散化Token表示和逐步解碼方面的相似性,首次嘗試將CoT應用于圖像生成。
2. CoT在圖像生成中的應用方法
研究團隊提出了幾種方法來將CoT應用于圖像生成,主要包括:測試時驗證(Test-time Verification)、偏好排序數據構建和直接偏好優化(Direct Preference Optimization,DPO)。
3. 核心方案:Verify & Reinforce
研究基于Show-o模型,提出了三個核心部分:
- 測試時驗證:研究者設計了三種獎勵模型:
- 結果獎勵模型(ORM):基于Best-of-N策略,選擇多次生成結果中質量最佳的圖像,包括Zero-shot ORM和Fine-tuned ORM兩種。
- 過程獎勵模型(PRM):對每一步生成過程進行評估,但效果有限。
- 潛力評估獎勵模型(PARM)及其改進版本PARM++:PARM通過清晰度判斷、潛力評估和最佳選擇提升生成質量;PARM++進一步引入反思機制,允許模型在生成錯誤時進行自我修正,顯著提升了圖像生成準確性。
- 直接偏好優化(DPO):利用288K圖文排序數據,通過最大似然優化,使模型輸出更符合人類偏好,提升了圖像生成質量。
- 測試時驗證與DPO結合:將測試時驗證與DPO結合,進一步優化生成圖像的質量和一致性,取得了最佳效果。
4. 實驗結果與結論
實驗結果表明,結合PARM和迭代DPO的策略在GenEval基準上取得了顯著提升,超過了現有的擴散模型和自回歸模型。CoT推理策略顯著提升了自回歸圖像生成的性能,為該領域的研究提供了新的方向。
5. 總結
該研究首次系統性地探索了CoT推理在自回歸圖像生成中的應用,并提出了創新的獎勵模型PARM和PARM++。通過測試時驗證和DPO策略的結合,有效提升了圖像生成質量和文本一致性,為大模型推理能力的提升提供了重要基礎。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...