何愷明團(tuán)隊(duì)新作Fluid:文生圖質(zhì)量刷新紀(jì)錄
本文對自回歸模型在文本生成圖像任務(wù)中的擴(kuò)展行為進(jìn)行了實(shí)證研究。
原標(biāo)題:何愷明團(tuán)隊(duì)新作Fluid:文生圖質(zhì)量刷新紀(jì)錄
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):9291字
第四屆全球自動駕駛峰會預(yù)告
1月14日,第四屆全球自動駕駛峰會將在北京舉辦。峰會將設(shè)主會場和分會場,主會場將舉行開幕式及端到端自動駕駛創(chuàng)新論壇;分會場將分別進(jìn)行城市NOA專題論壇,以及自動駕駛視覺語言模型和自動駕駛世界模型兩場技術(shù)研討會。 歡迎申請免費(fèi)票或購票!
Fluid模型:基于連續(xù)token的自回歸文本到圖像生成模型
本文主要研究了自回歸模型在大規(guī)模視覺任務(wù)(特別是文本到圖像生成)中的擴(kuò)展規(guī)律,并提出了一種名為Fluid的新模型。
1. 問題與方案
研究發(fā)現(xiàn),與大語言模型的成功經(jīng)驗(yàn)不同,簡單地?cái)U(kuò)大自回歸模型的規(guī)模在視覺領(lǐng)域并不總是帶來性能提升。本文關(guān)注兩個(gè)關(guān)鍵問題:模型使用離散還是連續(xù)token,以及模型生成token的順序(隨機(jī)或固定)。通過實(shí)驗(yàn)對比,研究者發(fā)現(xiàn)使用連續(xù)token和隨機(jī)順序生成的方式能顯著提高模型性能。基于此,提出了Fluid模型,它采用隨機(jī)順序的自回歸生成方式,并基于連續(xù)token進(jìn)行訓(xùn)練。
2. 技術(shù)細(xì)節(jié)
Fluid模型的核心技術(shù)包括:使用BERT和GPT類型的Transformer架構(gòu);結(jié)合離散和連續(xù)token的生成;利用FID、GenEval評分和視覺質(zhì)量評估模型性能。 圖像分詞器將圖像編碼為token序列,文本編碼器處理文本輸入,Transformer模型進(jìn)行自回歸生成,最后通過輸出頭將生成的token轉(zhuǎn)換為圖像。其中,連續(xù)分詞器在重建質(zhì)量上明顯優(yōu)于離散分詞器。
3. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明:使用連續(xù)token的模型在視覺質(zhì)量上顯著優(yōu)于使用離散token的模型;隨機(jī)順序的模型在GenEval評分上優(yōu)于光柵順序的模型。Fluid 10.5B模型在MS-COCO 30K數(shù)據(jù)集上實(shí)現(xiàn)了新的零樣本生成FID紀(jì)錄(6.16),并在GenEval基準(zhǔn)上獲得了0.69的綜合評分,達(dá)到當(dāng)前最佳表現(xiàn)。 實(shí)驗(yàn)還發(fā)現(xiàn)驗(yàn)證損失與模型規(guī)模呈線性關(guān)系,但驗(yàn)證損失的改進(jìn)并不總是轉(zhuǎn)化為評估指標(biāo)的提升。連續(xù)token和大型模型對視覺質(zhì)量至關(guān)重要。
4. 主要結(jié)論
本文通過實(shí)證研究,證明了在文本到圖像生成任務(wù)中,使用連續(xù)token的隨機(jī)順序自回歸模型具有最佳的性能和擴(kuò)展性。Fluid模型通過將這些技術(shù)結(jié)合并擴(kuò)展到10.5B參數(shù),取得了最先進(jìn)的文本到圖像生成性能,縮小了視覺模型與語言模型之間的性能差距。
5. 未來展望
這項(xiàng)研究為自回歸模型在圖像生成任務(wù)中的擴(kuò)展提供了寶貴的見解,為未來研究提供了方向,并有望推動該領(lǐng)域進(jìn)一步發(fā)展。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。