SRPO

SRPO – 騰訊混元推出的文生圖模型

核心觀點： SRPO（Semantic Relative Preference Optimization）是騰訊混元推出的創新文本到圖像生成模型，通過將獎勵信號轉化為文本條件信號，實現了對生成過程的在線、動態調整，大幅降低了對離線獎勵微調的依賴。其核心技術Direct-Align能夠有效避免后期時間步的過度優化，顯著提升生成圖像的真實感和審美質量，同時訓練效率極高，僅需10分鐘即可完成優化。

SRPO：革新文本到圖像生成的新范式

SRPO，即Semantic Relative Preference Optimization，是騰訊混元在文本到圖像生成領域的一項突破性成果。它顛覆了傳統的獎勵模型微調模式，將獎勵信號巧妙地設計為文本條件信號，從而實現了對生成過程的實時、在線調整。這意味著用戶可以根據文本提示即時引導模型的生成方向，而不必進行耗時的離線微調，極大地提升了模型的靈活性和響應速度。

SRPO的創新之處與核心功能

SRPO引入了名為Direct-Align的尖端技術，該技術通過預先設定的噪聲先驗，能夠從任何噪聲水平直接恢復原始圖像。這一機制有效地規避了擴散模型在后期時間步中常見的過度優化陷阱，防止模型生成看似符合獎勵但實際質量堪憂的圖像。在FLUX.1.dev模型上的實驗結果斐然，SRPO顯著提升了生成圖像在人類評估中的真實感和美學吸引力，并且訓練效率驚人，優化過程僅需短短10分鐘即可完成。

SRPO的主要功能體現在以下幾個方面：

質的飛躍： 顯著提升生成圖像的整體質量，使其在逼真度、細節表現力和藝術審美方面都達到了新的高度。
即時反饋： 支持用戶通過文本提示動態調整獎勵信號，實時改變圖像的風格和用戶偏好，實現“所想即所得”的生成體驗。
高度適應性： 使擴散模型能夠更精準地契合不同的任務需求和人類的個性化偏好，例如在光照、風格或細節層次上進行精細化優化。
效能倍增： 通過優化擴散過程的早期階段，SRPO極大地提高了訓練效率，使得模型的優化和訓練能在極短的時間內完成。

SRPO背后的技術引擎

SRPO的強大能力源于其獨特的技術架構：

Direct-Align技術： 在訓練過程中，SRPO向干凈圖像注入高斯噪聲，并利用單步去噪操作來恢復原始圖像。這種方法巧妙地避免了擴散模型后期時間步的過度優化問題，有效遏制了“獎勵黑客”行為，即模型利用獎勵模型的漏洞生成低質量圖像。SRPO能夠在早期時間步進行優化，這不僅提高了訓練效率，也保證了生成質量。
語義化相對偏好優化： SRPO將獎勵信號轉化為文本條件信號，通過正負提示詞對來精細化調整獎勵。模型通過計算正負提示詞對的獎勵差異來指導優化過程。SRPO允許在訓練過程中動態調整這些信號，使模型能夠根據不同的任務需求實時調整其生成策略。
獎勵聚合框架： 為了增強優化的魯棒性，SRPO在訓練中會多次注入噪聲，生成一系列中間圖像。對每個中間圖像進行去噪和恢復操作后，利用衰減折扣因子對中間獎勵進行聚合。這一機制有效減少了后期時間步的獎勵黑客行為，從而提升了最終生成圖像的整體質量。