T2I-R1

T2I-R1 – 港中文聯合上海AI Lab推出文生圖模型

T2I-R1

T2I-R1 是由香港中文大學與上海AI Lab聯合開發的先進文本生成圖像模型。該模型通過引入雙層推理機制，結合語義級鏈式思維（CoT）和 Token 級 CoT，成功實現了高層次圖像規劃與低層次像素生成的解耦，顯著提升了圖像生成的質量與穩健性。在多項基準測試中，T2I-R1 的性能超越了當前的頂尖模型 FLUX.1，展現了其在復雜場景理解與高質量圖像生成方面的卓越能力。

T2I-R1是什么

T2I-R1 是一款新型的文本生成圖像模型，由香港中文大學與上海AI Lab共同研發。該模型利用雙層推理機制，結合語義級鏈式思維（CoT）與 Token 級 CoT，成功實現了高層次的圖像規劃與低層次的像素生成相互，顯著提升了生成圖像的質量與魯棒性。T2I-R1 采用 BiCoT-GRPO 強化學習框架，通過多專家獎勵模型的集成來優化生成過程。

T2I-R1的主要功能

卓越的圖像生成：運用雙層推理機制，生成與人類期望高度一致的高質量圖像。
深度理解復雜場景：能夠理解用戶提示中的復雜語義，生成高度一致的圖像，尤其在處理不常見或模糊場景時表現出色。
優化圖像多樣性：通過語義級 CoT 的規劃能力，增強生成圖像的多樣性，避免單一的輸出結果。

T2I-R1的技術原理

雙層 CoT 推理機制：
- 語義級 CoT：在生成圖像之前，對文本提示進行推理規劃，以明確整體結構與元素布局。
- Token 級 CoT：在圖像生成過程中，逐塊生成圖像 Token，專注于局部細節與視覺連貫性。
BiCoT-GRPO 算法：結合強化學習（Reinforcement Learning，RL）對語義級與 Token 級 CoT 進行聯合優化，確保推理與生成過程的協調。通過群組相對獎勵（Group-Relative Reward）與多專家獎勵模型的集成，從多個維度評估生成圖像的質量。
多專家獎勵模型集成：結合人類偏好模型、目標檢測器、視覺問答模型等多種視覺專家，從美學質量、文本對齊、對象存在性等多個方面評估生成圖像，防止模型對單一獎勵模型的過擬合，提升生成結果的穩定性與泛化能力。