本文對自回歸模型在文本生成圖像任務中的擴展行為進行了實證研究。
第四屆全球自動駕駛峰會預告
1月14日,第四屆全球自動駕駛峰會將在北京舉辦。峰會將設主會場和分會場,主會場將舉行開幕式及端到端自動駕駛創新論壇;分會場將分別進行城市NOA專題論壇,以及自動駕駛視覺語言模型和自動駕駛世界模型兩場技術研討會。 歡迎申請免費票或購票!
Fluid模型:基于連續token的自回歸文本到圖像生成模型
本文主要研究了自回歸模型在大規模視覺任務(特別是文本到圖像生成)中的擴展規律,并提出了一種名為Fluid的新模型。
1. 問題與方案
研究發現,與大語言模型的成功經驗不同,簡單地擴大自回歸模型的規模在視覺領域并不總是帶來性能提升。本文關注兩個關鍵問題:模型使用離散還是連續token,以及模型生成token的順序(隨機或固定)。通過實驗對比,研究者發現使用連續token和隨機順序生成的方式能顯著提高模型性能。基于此,提出了Fluid模型,它采用隨機順序的自回歸生成方式,并基于連續token進行訓練。
2. 技術細節
Fluid模型的核心技術包括:使用BERT和GPT類型的Transformer架構;結合離散和連續token的生成;利用FID、GenEval評分和視覺質量評估模型性能。 圖像分詞器將圖像編碼為token序列,文本編碼器處理文本輸入,Transformer模型進行自回歸生成,最后通過輸出頭將生成的token轉換為圖像。其中,連續分詞器在重建質量上明顯優于離散分詞器。
3. 實驗結果
實驗結果表明:使用連續token的模型在視覺質量上顯著優于使用離散token的模型;隨機順序的模型在GenEval評分上優于光柵順序的模型。Fluid 10.5B模型在MS-COCO 30K數據集上實現了新的零樣本生成FID紀錄(6.16),并在GenEval基準上獲得了0.69的綜合評分,達到當前最佳表現。 實驗還發現驗證損失與模型規模呈線性關系,但驗證損失的改進并不總是轉化為評估指標的提升。連續token和大型模型對視覺質量至關重要。
4. 主要結論
本文通過實證研究,證明了在文本到圖像生成任務中,使用連續token的隨機順序自回歸模型具有最佳的性能和擴展性。Fluid模型通過將這些技術結合并擴展到10.5B參數,取得了最先進的文本到圖像生成性能,縮小了視覺模型與語言模型之間的性能差距。
5. 未來展望
這項研究為自回歸模型在圖像生成任務中的擴展提供了寶貴的見解,為未來研究提供了方向,并有望推動該領域進一步發展。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。