<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        何愷明團(tuán)隊(duì)新作Fluid:文生圖質(zhì)量刷新紀(jì)錄

        AIGC動態(tài)9個(gè)月前發(fā)布 智猩猩GenAI
        509 0 0

        本文對自回歸模型在文本生成圖像任務(wù)中的擴(kuò)展行為進(jìn)行了實(shí)證研究。

        何愷明團(tuán)隊(duì)新作Fluid:文生圖質(zhì)量刷新紀(jì)錄

        原標(biāo)題:何愷明團(tuán)隊(duì)新作Fluid:文生圖質(zhì)量刷新紀(jì)錄
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):9291字

        第四屆全球自動駕駛峰會預(yù)告

        1月14日,第四屆全球自動駕駛峰會將在北京舉辦。峰會將設(shè)主會場和分會場,主會場將舉行開幕式及端到端自動駕駛創(chuàng)新論壇;分會場將分別進(jìn)行城市NOA專題論壇,以及自動駕駛視覺語言模型和自動駕駛世界模型兩場技術(shù)研討會。 歡迎申請免費(fèi)票或購票!

        Fluid模型:基于連續(xù)token的自回歸文本到圖像生成模型

        本文主要研究了自回歸模型在大規(guī)模視覺任務(wù)(特別是文本到圖像生成)中的擴(kuò)展規(guī)律,并提出了一種名為Fluid的新模型。

        1. 問題與方案

        研究發(fā)現(xiàn),與大語言模型的成功經(jīng)驗(yàn)不同,簡單地?cái)U(kuò)大自回歸模型的規(guī)模在視覺領(lǐng)域并不總是帶來性能提升。本文關(guān)注兩個(gè)關(guān)鍵問題:模型使用離散還是連續(xù)token,以及模型生成token的順序(隨機(jī)或固定)。通過實(shí)驗(yàn)對比,研究者發(fā)現(xiàn)使用連續(xù)token和隨機(jī)順序生成的方式能顯著提高模型性能。基于此,提出了Fluid模型,它采用隨機(jī)順序的自回歸生成方式,并基于連續(xù)token進(jìn)行訓(xùn)練。

        2. 技術(shù)細(xì)節(jié)

        Fluid模型的核心技術(shù)包括:使用BERT和GPT類型的Transformer架構(gòu);結(jié)合離散和連續(xù)token的生成;利用FID、GenEval評分和視覺質(zhì)量評估模型性能。 圖像分詞器將圖像編碼為token序列,文本編碼器處理文本輸入,Transformer模型進(jìn)行自回歸生成,最后通過輸出頭將生成的token轉(zhuǎn)換為圖像。其中,連續(xù)分詞器在重建質(zhì)量上明顯優(yōu)于離散分詞器。

        3. 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果表明:使用連續(xù)token的模型在視覺質(zhì)量上顯著優(yōu)于使用離散token的模型;隨機(jī)順序的模型在GenEval評分上優(yōu)于光柵順序的模型。Fluid 10.5B模型在MS-COCO 30K數(shù)據(jù)集上實(shí)現(xiàn)了新的零樣本生成FID紀(jì)錄(6.16),并在GenEval基準(zhǔn)上獲得了0.69的綜合評分,達(dá)到當(dāng)前最佳表現(xiàn)。 實(shí)驗(yàn)還發(fā)現(xiàn)驗(yàn)證損失與模型規(guī)模呈線性關(guān)系,但驗(yàn)證損失的改進(jìn)并不總是轉(zhuǎn)化為評估指標(biāo)的提升。連續(xù)token和大型模型對視覺質(zhì)量至關(guān)重要。

        4. 主要結(jié)論

        本文通過實(shí)證研究,證明了在文本到圖像生成任務(wù)中,使用連續(xù)token的隨機(jī)順序自回歸模型具有最佳的性能和擴(kuò)展性。Fluid模型通過將這些技術(shù)結(jié)合并擴(kuò)展到10.5B參數(shù),取得了最先進(jìn)的文本到圖像生成性能,縮小了視覺模型與語言模型之間的性能差距。

        5. 未來展望

        這項(xiàng)研究為自回歸模型在圖像生成任務(wù)中的擴(kuò)展提供了寶貴的見解,為未來研究提供了方向,并有望推動該領(lǐng)域進(jìn)一步發(fā)展。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕精品亚洲无线码二区 | 亚洲成a人无码亚洲成www牛牛| 99久久免费精品视频| 亚洲国产精品国自产拍电影| 国产又黄又爽又大的免费视频 | 免费福利网站在线观看| 久久亚洲AV成人无码国产| 1000部免费啪啪十八未年禁止观看| 亚洲电影免费在线观看| 中文字幕成人免费视频| 亚洲国产成人精品青青草原| 成人A级毛片免费观看AV网站| 亚洲精品乱码久久久久蜜桃| 又粗又大又猛又爽免费视频| 一本岛v免费不卡一二三区| 亚洲日韩国产精品第一页一区| 中文精品人人永久免费| 亚洲精品无码高潮喷水在线| 好紧我太爽了视频免费国产| 久久久久亚洲AV无码专区首JN| 很黄很黄的网站免费的| 亚洲午夜无码久久| 成人亚洲综合天堂| 丁香花在线视频观看免费| 亚洲黄色一级毛片| 啦啦啦www免费视频| a毛片成人免费全部播放| 亚洲av日韩av无码| 无码人妻一区二区三区免费手机| 久久亚洲色WWW成人欧美| 国产亚洲美女精品久久久| 中文字幕天天躁日日躁狠狠躁免费| 亚洲国产91在线| 久久久久无码专区亚洲av | 免费阿v网站在线观看g| 亚洲精品无码av片| 亚洲国产a∨无码中文777| 91在线视频免费看| 最近更新免费中文字幕大全| 亚洲人成免费电影| 国产亚洲一区二区手机在线观看|