圖像生成迎來CoT時刻！港中文首次提出文生圖的o1推理和inference scaling新范式！

首次系統性地探討了CoT在自回歸圖像生成中的適用性和潛在優勢。

原標題：圖像生成迎來CoT時刻！港中文首次提出文生圖的o1推理和inference scaling新范式！
文章來源：智猩猩GenAI
內容字數：5329字

本文總結了香港中文大學、北京大學和上海AI Lab的研究成果，該研究探討了如何將思維鏈（Chain-of-Thought，CoT）推理策略應用于圖像生成領域，以提升圖像質量和文本一致性。研究表明，CoT策略能夠顯著提高自回歸圖像生成的性能。

CoT推理在大型語言模型（LLM）和多模態大模型（LMM）中已取得顯著成功，尤其在數學推理和科學計算方面。然而，將其應用于自回歸圖像生成任務中，如何有效驗證和強化生成過程仍是一個挑戰。該研究基于自回歸圖像生成與LLM在離散化Token表示和逐步解碼方面的相似性，首次嘗試將CoT應用于圖像生成。

研究團隊提出了幾種方法來將CoT應用于圖像生成，主要包括：測試時驗證（Test-time Verification）、偏好排序數據構建和直接偏好優化（Direct Preference Optimization，DPO）。

研究基于Show-o模型，提出了三個核心部分：

測試時驗證：研究者設計了三種獎勵模型：
- 結果獎勵模型（ORM）：基于Best-of-N策略，選擇多次生成結果中質量最佳的圖像，包括Zero-shot ORM和Fine-tuned ORM兩種。
- 過程獎勵模型（PRM）：對每一步生成過程進行評估，但效果有限。
- 潛力評估獎勵模型（PARM）及其改進版本PARM++：PARM通過清晰度判斷、潛力評估和最佳選擇提升生成質量；PARM++進一步引入反思機制，允許模型在生成錯誤時進行自我修正，顯著提升了圖像生成準確性。
直接偏好優化（DPO）：利用288K圖文排序數據，通過最大似然優化，使模型輸出更符合人類偏好，提升了圖像生成質量。
測試時驗證與DPO結合：將測試時驗證與DPO結合，進一步優化生成圖像的質量和一致性，取得了最佳效果。