RAR使得標準的自回歸圖像生成器能夠實現SOTA性能。

原標題:首次超越擴散模型和非自回歸Transformer模型!字節開源RAR:自回歸生成最新SOTA!
文章來源:智猩猩GenAI
內容字數:13282字
RAR: 隨機排列自回歸訓練策略,賦能SOTA圖像生成
本文介紹了一種名為RAR(Randomized Autoregressive)的全新訓練策略,它顯著提升了標準自回歸圖像生成器的性能,使其達到甚至超越了當前最先進水平(SOTA)。RAR的核心在于巧妙地結合了隨機排列和自回歸訓練,打破了傳統自回歸模型在視覺任務中單向上下文建模的限制,并保持了與語言建模框架的兼容性。
1. RAR的核心思想:打破單向限制,擁抱雙向上下文
傳統的自回歸模型受限于因果注意力機制,只能利用單向上下文信息。而RAR通過在訓練過程中隨機排列輸入圖像的token序列,最大化所有可能排列順序的期望似然值。這使得模型能夠學習到圖像中token之間的雙向關系,有效利用雙向上下文信息,提升生成質量。
2. 退火訓練策略:平衡探索與利用
為了避免隨機排列帶來的訓練不穩定性,RAR采用了一種創新的退火訓練策略。訓練初期,輸入序列以較高的概率被隨機排列;隨著訓練的進行,該概率逐漸線性衰減至0,最終回歸到標準的光柵掃描順序。這種策略使得模型在訓練初期充分探索各種上下文排列,并在后期收斂到高效的掃描順序,平衡了探索與利用。
3. 目標感知位置嵌入:解決排列帶來的歧義
隨機排列可能會導致模型在預測過程現歧義。為了解決這個問題,RAR引入了目標感知位置嵌入,它編碼了下一個要預測的token信息,從而避免了不同排列順序下相同特征產生相同預測的問題。
4. 與語言建模框架的兼容性:高效且強大
RAR在提升圖像生成性能的同時,保持了自回歸建模的核心結構,這使得它與大語言模型(LLM)的優化技術(如KV-cache)完全兼容。這不僅提高了訓練效率,也使得RAR更容易應用于多模態統一模型。
5. 顯著的性能提升:超越SOTA
在ImageNet-256基準測試中,RAR取得了1.48的FID分數,顯著超越了之前的自回歸圖像生成器,甚至優于領先的基于擴散和掩碼Transformer的方法。不同尺寸的RAR模型都展現出良好的可擴展性,更大的模型尺寸帶來更好的性能。
6. 高效的采樣速度:得益于LLM優化技術
RAR與LLM優化技術兼容,使其采樣速度遠高于其他方法,例如比MaskBit快11.9倍,比MAR-H快27.7倍。這使得RAR在實際應用中更具優勢。
7. 總結
RAR通過簡單而有效的隨機排列自回歸訓練策略,顯著提升了自回歸圖像生成器的性能,達到了SOTA水平。其與語言建模框架的兼容性以及高效的采樣速度,使其成為一個極具潛力的圖像生成方法,并為未來多模態模型的發展提供了新的方向。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。

粵公網安備 44011502001135號