SimpleAR

SimpleAR – 復(fù)旦大合字節(jié) Seed 團(tuán)隊(duì)推出的圖像生成模型

SimpleAR

SimpleAR 是由復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室和字節(jié) Seed 團(tuán)隊(duì)共同研發(fā)的一款純自回歸圖像生成模型。該模型通過簡潔的自回歸架構(gòu)，結(jié)合優(yōu)化的訓(xùn)練與推理流程，實(shí)現(xiàn)了高效且高質(zhì)量的圖像生成。僅憑 5 億個參數(shù)，SimpleAR 就能夠生成分辨率高達(dá) 1024×1024 的圖像，并在 GenEval 等多個基準(zhǔn)測試中表現(xiàn)出色。

SimpleAR是什么

SimpleAR 是一款創(chuàng)新的純自回歸圖像生成模型，由復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室與字節(jié) Seed 團(tuán)隊(duì)聯(lián)合推出。其獨(dú)特的自回歸架構(gòu)，經(jīng)過優(yōu)化的訓(xùn)練和推理過程，使其能夠生成高分辨率的圖像。SimpleAR 僅用 5 億參數(shù)便能高效生成 1024×1024 的圖像，并在 GenEval 等基準(zhǔn)測試中取得了0.59的優(yōu)異成績。該模型采用“預(yù)訓(xùn)練 – 有監(jiān)督微調(diào) – 強(qiáng)化學(xué)習(xí)”的三階段訓(xùn)練方法，有效提升了文本理解和圖像生成的效果。同時，SimpleAR 也兼容現(xiàn)有的加速技術(shù)，使得推理時間縮短到 14 秒以內(nèi)。

SimpleAR的主要功能

高質(zhì)量文本到圖像生成：SimpleAR 作為一個純自回歸的視覺生成框架，能夠生成高達(dá) 1024×1024 分辨率的高質(zhì)量圖像，且在 GenEval 等基準(zhǔn)測試中取得了 0.59 的優(yōu)異成績。
多模態(tài)融合生成：該模型將文本和視覺 token 在一個統(tǒng)一的 Transformer 架構(gòu)中平等對待，支持多模態(tài)建模，從而更有效地進(jìn)行文本指導(dǎo)下的圖像生成。

SimpleAR的技術(shù)原理

自回歸生成機(jī)制：SimpleAR 采用經(jīng)典的自回歸生成方式，通過逐步預(yù)測“下一個 token”的形式生成圖像。這種方法將圖像拆分為一系列離散的 token，并逐個進(jìn)行預(yù)測，以構(gòu)建完整的圖像。
多模態(tài)融合：該模型將文本編碼與視覺生成整合在一個 decoder-only 的 Transformer 架構(gòu)中，提升了參數(shù)利用效率，支持文本與視覺模態(tài)的聯(lián)合建模，使模型能夠更自然地理解和生成與文本描述相符的圖像。
三階段訓(xùn)練方法：
- 預(yù)訓(xùn)練：通過大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)通用的視覺和語言模式。
- 有監(jiān)督微調(diào)（SFT）：在預(yù)訓(xùn)練基礎(chǔ)上，采用有監(jiān)督學(xué)習(xí)進(jìn)一步提升生成質(zhì)量和指令的遵循能力。
- 強(qiáng)化學(xué)習(xí)（GRPO）：基于簡單的獎勵函數(shù)（如 CLIP）進(jìn)行后續(xù)訓(xùn)練，優(yōu)化生成內(nèi)容的美學(xué)與多模態(tài)對齊。
推理加速技術(shù)：SimpleAR 通過 vLLM 等技術(shù)優(yōu)化推理過程，將圖像生成時間顯著縮短，0.5B 參數(shù)的模型能夠在 14 秒內(nèi)生成 1024×1024 分辨率的高質(zhì)量圖像。
視覺 tokenizer 的選擇：SimpleAR 使用 Cosmos 作為視覺 tokenizer，但在低分辨率圖像和細(xì)節(jié)重建方面仍存在一定局限性，有待進(jìn)一步改進(jìn)。

SimpleAR的項(xiàng)目地址

Github倉庫：https://github.com/wdrink/SimpleAR
HuggingFace模型庫：https://huggingface.co/papers/2504.11455
arXiv技術(shù)論文：https://arxiv.org/pdf/2504.11455

SimpleAR的應(yīng)用場景

創(chuàng)意設(shè)計(jì)：SimpleAR 能夠幫助設(shè)計(jì)師快速生成高質(zhì)量的圖像，適用于廣告設(shè)計(jì)、海報(bào)制作和藝術(shù)創(chuàng)作等領(lǐng)域。
虛擬場景構(gòu)建：通過文本描述生成虛擬場景，為游戲開發(fā)、虛擬現(xiàn)實(shí)（VR）和增強(qiáng)現(xiàn)實(shí)（AR）應(yīng)用提供豐富的素材。
多模態(tài)機(jī)器翻譯：SimpleAR 的多模態(tài)融合能力可將圖像信息與文本翻譯相結(jié)合，提高翻譯的準(zhǔn)確性和豐富性。
視頻描述生成：通過結(jié)合圖像生成與視頻內(nèi)容，為視頻生成詳細(xì)的描述文本。
增強(qiáng)現(xiàn)實(shí)（AR）與虛擬現(xiàn)實(shí)（VR）：SimpleAR 可以生成與現(xiàn)實(shí)場景高度融合的虛擬圖像，適用于工業(yè)維修、教育演示和旅游導(dǎo)覽等場景，提升用戶體驗(yàn)。
圖像增強(qiáng)與修復(fù)：SimpleAR 可用于增強(qiáng)低分辨率圖像的細(xì)節(jié)，提高圖像質(zhì)量，并通過生成缺失或損壞部分的圖像內(nèi)容實(shí)現(xiàn)修復(fù)。

閱讀原文