<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        首次超越擴(kuò)散模型和非自回歸Transformer模型!字節(jié)開源RAR:自回歸生成最新SOTA!

        AIGC動態(tài)8個月前發(fā)布 智猩猩GenAI
        366 0 0

        RAR使得標(biāo)準(zhǔn)的自回歸圖像生成器能夠?qū)崿F(xiàn)SOTA性能。

        首次超越擴(kuò)散模型和非自回歸Transformer模型!字節(jié)開源RAR:自回歸生成最新SOTA!

        原標(biāo)題:首次超越擴(kuò)散模型非自回歸Transformer模型!字節(jié)開源RAR:自回歸生成最新SOTA!
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):13282字

        RAR: 隨機(jī)排列自回歸訓(xùn)練策略,賦能SOTA圖像生成

        本文介紹了一種名為RAR(Randomized Autoregressive)的全新訓(xùn)練策略,它顯著提升了標(biāo)準(zhǔn)自回歸圖像生成器的性能,使其達(dá)到甚至超越了當(dāng)前最先進(jìn)水平(SOTA)。RAR的核心在于巧妙地結(jié)合了隨機(jī)排列和自回歸訓(xùn)練,打破了傳統(tǒng)自回歸模型在視覺任務(wù)中單向上下文建模的限制,并保持了與語言建模框架的兼容性。

        1. RAR的核心思想:打破單向限制,擁抱雙向上下文

        傳統(tǒng)的自回歸模型受限于因果注意力機(jī)制,只能利用單向上下文信息。而RAR通過在訓(xùn)練過程中隨機(jī)排列輸入圖像的token序列,最大化所有可能排列順序的期望似然值。這使得模型能夠?qū)W習(xí)到圖像中token之間的雙向關(guān)系,有效利用雙向上下文信息,提升生成質(zhì)量。

        2. 退火訓(xùn)練策略:平衡探索與利用

        為了避免隨機(jī)排列帶來的訓(xùn)練不穩(wěn)定性,RAR采用了一種創(chuàng)新的退火訓(xùn)練策略。訓(xùn)練初期,輸入序列以較高的概率被隨機(jī)排列;隨著訓(xùn)練的進(jìn)行,該概率逐漸線性衰減至0,最終回歸到標(biāo)準(zhǔn)的光柵掃描順序。這種策略使得模型在訓(xùn)練初期充分探索各種上下文排列,并在后期收斂到高效的掃描順序,平衡了探索與利用。

        3. 目標(biāo)感知位置嵌入:解決排列帶來的歧義

        隨機(jī)排列可能會導(dǎo)致模型在預(yù)測過程現(xiàn)歧義。為了解決這個問題,RAR引入了目標(biāo)感知位置嵌入,它編碼了下一個要預(yù)測的token信息,從而避免了不同排列順序下相同特征產(chǎn)生相同預(yù)測的問題。

        4. 與語言建模框架的兼容性:高效且強(qiáng)大

        RAR在提升圖像生成性能的同時,保持了自回歸建模的核心結(jié)構(gòu),這使得它與大語言模型(LLM)的優(yōu)化技術(shù)(如KV-cache)完全兼容。這不僅提高了訓(xùn)練效率,也使得RAR更容易應(yīng)用于多模態(tài)統(tǒng)一模型。

        5. 顯著的性能提升:超越SOTA

        在ImageNet-256基準(zhǔn)測試中,RAR取得了1.48的FID分?jǐn)?shù),顯著超越了之前的自回歸圖像生成器,甚至優(yōu)于領(lǐng)先的基于擴(kuò)散和掩碼Transformer的方法。不同尺寸的RAR模型都展現(xiàn)出良好的可擴(kuò)展性,更大的模型尺寸帶來更好的性能。

        6. 高效的采樣速度:得益于LLM優(yōu)化技術(shù)

        RAR與LLM優(yōu)化技術(shù)兼容,使其采樣速度遠(yuǎn)高于其他方法,例如比MaskBit快11.9倍,比MAR-H快27.7倍。這使得RAR在實際應(yīng)用中更具優(yōu)勢。

        7. 總結(jié)

        RAR通過簡單而有效的隨機(jī)排列自回歸訓(xùn)練策略,顯著提升了自回歸圖像生成器的性能,達(dá)到了SOTA水平。其與語言建模框架的兼容性以及高效的采樣速度,使其成為一個極具潛力的圖像生成方法,并為未來多模態(tài)模型的發(fā)展提供了新的方向。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲午夜精品一区二区公牛电影院 | 182tv免费视频在线观看 | 成人免费无码大片A毛片抽搐| 亚洲人成网站日本片| 久久久久免费精品国产小说| 亚洲AV无码一区二区二三区入口| 91精品全国免费观看青青| 亚洲欧洲精品无码AV| 免费视频精品一区二区三区| 亚洲国产一区二区三区青草影视| 午夜免费啪视频在线观看 | 国产成人精品免费视频大| 亚洲国产美女在线观看| 妻子5免费完整高清电视| 亚洲精品456人成在线| 日韩伦理片电影在线免费观看| 国产精品亚洲综合| 亚洲国产成人精品女人久久久| 亚洲视频在线免费| 亚洲AV日韩AV天堂久久| 成人免费的性色视频| 亚洲av无码av在线播放| 亚洲精品无码成人片在线观看 | 亚洲精品tv久久久久| 西西人体免费视频| 亚洲网站在线观看| 成人黄页网站免费观看大全| 成人精品国产亚洲欧洲| 亚洲人成人77777网站| 成人免费视频69| 黄色免费在线观看网址| 久久亚洲免费视频| 成人免费看片又大又黄| 国产免费福利体检区久久| 久久亚洲AV无码精品色午夜麻豆| 成人免费网站在线观看| 中文字幕久精品免费视频| 亚洲一区二区三区写真 | 全免费一级毛片在线播放| h视频免费高清在线观看| 亚洲精品影院久久久久久|