首次超越擴(kuò)散模型和非自回歸Transformer模型！字節(jié)開源RAR：自回歸生成最新SOTA！

RAR使得標(biāo)準(zhǔn)的自回歸圖像生成器能夠?qū)崿F(xiàn)SOTA性能。

原標(biāo)題：首次超越擴(kuò)散模型和非自回歸Transformer模型！字節(jié)開源RAR：自回歸生成最新SOTA！
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：13282字

RAR: 隨機(jī)排列自回歸訓(xùn)練策略，賦能SOTA圖像生成

本文介紹了一種名為RAR（Randomized Autoregressive）的全新訓(xùn)練策略，它顯著提升了標(biāo)準(zhǔn)自回歸圖像生成器的性能，使其達(dá)到甚至超越了當(dāng)前最先進(jìn)水平（SOTA）。RAR的核心在于巧妙地結(jié)合了隨機(jī)排列和自回歸訓(xùn)練，打破了傳統(tǒng)自回歸模型在視覺任務(wù)中單向上下文建模的限制，并保持了與語言建模框架的兼容性。

1. RAR的核心思想：打破單向限制，擁抱雙向上下文

傳統(tǒng)的自回歸模型受限于因果注意力機(jī)制，只能利用單向上下文信息。而RAR通過在訓(xùn)練過程中隨機(jī)排列輸入圖像的token序列，最大化所有可能排列順序的期望似然值。這使得模型能夠?qū)W習(xí)到圖像中token之間的雙向關(guān)系，有效利用雙向上下文信息，提升生成質(zhì)量。

2. 退火訓(xùn)練策略：平衡探索與利用

為了避免隨機(jī)排列帶來的訓(xùn)練不穩(wěn)定性，RAR采用了一種創(chuàng)新的退火訓(xùn)練策略。訓(xùn)練初期，輸入序列以較高的概率被隨機(jī)排列；隨著訓(xùn)練的進(jìn)行，該概率逐漸線性衰減至0，最終回歸到標(biāo)準(zhǔn)的光柵掃描順序。這種策略使得模型在訓(xùn)練初期充分探索各種上下文排列，并在后期收斂到高效的掃描順序，平衡了探索與利用。

3. 目標(biāo)感知位置嵌入：解決排列帶來的歧義

隨機(jī)排列可能會導(dǎo)致模型在預(yù)測過程現(xiàn)歧義。為了解決這個問題，RAR引入了目標(biāo)感知位置嵌入，它編碼了下一個要預(yù)測的token信息，從而避免了不同排列順序下相同特征產(chǎn)生相同預(yù)測的問題。

4. 與語言建模框架的兼容性：高效且強(qiáng)大

RAR在提升圖像生成性能的同時，保持了自回歸建模的核心結(jié)構(gòu)，這使得它與大語言模型（LLM）的優(yōu)化技術(shù)（如KV-cache）完全兼容。這不僅提高了訓(xùn)練效率，也使得RAR更容易應(yīng)用于多模態(tài)統(tǒng)一模型。

5. 顯著的性能提升：超越SOTA

在ImageNet-256基準(zhǔn)測試中，RAR取得了1.48的FID分?jǐn)?shù)，顯著超越了之前的自回歸圖像生成器，甚至優(yōu)于領(lǐng)先的基于擴(kuò)散和掩碼Transformer的方法。不同尺寸的RAR模型都展現(xiàn)出良好的可擴(kuò)展性，更大的模型尺寸帶來更好的性能。

6. 高效的采樣速度：得益于LLM優(yōu)化技術(shù)

RAR與LLM優(yōu)化技術(shù)兼容，使其采樣速度遠(yuǎn)高于其他方法，例如比MaskBit快11.9倍，比MAR-H快27.7倍。這使得RAR在實際應(yīng)用中更具優(yōu)勢。

7. 總結(jié)

RAR通過簡單而有效的隨機(jī)排列自回歸訓(xùn)練策略，顯著提升了自回歸圖像生成器的性能，達(dá)到了SOTA水平。其與語言建模框架的兼容性以及高效的采樣速度，使其成為一個極具潛力的圖像生成方法，并為未來多模態(tài)模型的發(fā)展提供了新的方向。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，專注于生成式人工智能。

閱讀原文

# AIGC動態(tài)# RAR模型 # 字節(jié)跳動開源 # 自回歸生成 # 超越擴(kuò)散模型 # 非自回歸Transformer

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

首次超越擴(kuò)散模型和非自回歸Transformer模型！字節(jié)開源RAR：自回歸生成最新SOTA！

RAR使得標(biāo)準(zhǔn)的自回歸圖像生成器能夠?qū)崿F(xiàn)SOTA性能。

RAR: 隨機(jī)排列自回歸訓(xùn)練策略，賦能SOTA圖像生成

1. RAR的核心思想：打破單向限制，擁抱雙向上下文

2. 退火訓(xùn)練策略：平衡探索與利用

3. 目標(biāo)感知位置嵌入：解決排列帶來的歧義

4. 與語言建模框架的兼容性：高效且強(qiáng)大

5. 顯著的性能提升：超越SOTA

6. 高效的采樣速度：得益于LLM優(yōu)化技術(shù)

7. 總結(jié)

聯(lián)系作者

給大模型制作圖文并茂的教科書: 從2.5年的教學(xué)視頻里挖掘多模態(tài)語料

最新！OpenAI計劃公布“博士級超級代理”

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？