SimpleAR – 復(fù)旦大合字節(jié) Seed 團(tuán)隊(duì)推出的圖像生成模型

SimpleAR 是由復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室和字節(jié) Seed 團(tuán)隊(duì)共同研發(fā)的一款純自回歸圖像生成模型。該模型通過簡潔的自回歸架構(gòu),結(jié)合優(yōu)化的訓(xùn)練與推理流程,實(shí)現(xiàn)了高效且高質(zhì)量的圖像生成。僅憑 5 億個參數(shù),SimpleAR 就能夠生成分辨率高達(dá) 1024×1024 的圖像,并在 GenEval 等多個基準(zhǔn)測試中表現(xiàn)出色。
SimpleAR是什么
SimpleAR 是一款創(chuàng)新的純自回歸圖像生成模型,由復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室與字節(jié) Seed 團(tuán)隊(duì)聯(lián)合推出。其獨(dú)特的自回歸架構(gòu),經(jīng)過優(yōu)化的訓(xùn)練和推理過程,使其能夠生成高分辨率的圖像。SimpleAR 僅用 5 億參數(shù)便能高效生成 1024×1024 的圖像,并在 GenEval 等基準(zhǔn)測試中取得了0.59的優(yōu)異成績。該模型采用“預(yù)訓(xùn)練 – 有監(jiān)督微調(diào) – 強(qiáng)化學(xué)習(xí)”的三階段訓(xùn)練方法,有效提升了文本理解和圖像生成的效果。同時,SimpleAR 也兼容現(xiàn)有的加速技術(shù),使得推理時間縮短到 14 秒以內(nèi)。
SimpleAR的主要功能
- 高質(zhì)量文本到圖像生成:SimpleAR 作為一個純自回歸的視覺生成框架,能夠生成高達(dá) 1024×1024 分辨率的高質(zhì)量圖像,且在 GenEval 等基準(zhǔn)測試中取得了 0.59 的優(yōu)異成績。
- 多模態(tài)融合生成:該模型將文本和視覺 token 在一個統(tǒng)一的 Transformer 架構(gòu)中平等對待,支持多模態(tài)建模,從而更有效地進(jìn)行文本指導(dǎo)下的圖像生成。
SimpleAR的技術(shù)原理
- 自回歸生成機(jī)制:SimpleAR 采用經(jīng)典的自回歸生成方式,通過逐步預(yù)測“下一個 token”的形式生成圖像。這種方法將圖像拆分為一系列離散的 token,并逐個進(jìn)行預(yù)測,以構(gòu)建完整的圖像。
- 多模態(tài)融合:該模型將文本編碼與視覺生成整合在一個 decoder-only 的 Transformer 架構(gòu)中,提升了參數(shù)利用效率,支持文本與視覺模態(tài)的聯(lián)合建模,使模型能夠更自然地理解和生成與文本描述相符的圖像。
- 三階段訓(xùn)練方法:
- 預(yù)訓(xùn)練:通過大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)通用的視覺和語言模式。
- 有監(jiān)督微調(diào)(SFT):在預(yù)訓(xùn)練基礎(chǔ)上,采用有監(jiān)督學(xué)習(xí)進(jìn)一步提升生成質(zhì)量和指令的遵循能力。
- 強(qiáng)化學(xué)習(xí)(GRPO):基于簡單的獎勵函數(shù)(如 CLIP)進(jìn)行后續(xù)訓(xùn)練,優(yōu)化生成內(nèi)容的美學(xué)與多模態(tài)對齊。
- 推理加速技術(shù):SimpleAR 通過 vLLM 等技術(shù)優(yōu)化推理過程,將圖像生成時間顯著縮短,0.5B 參數(shù)的模型能夠在 14 秒內(nèi)生成 1024×1024 分辨率的高質(zhì)量圖像。
- 視覺 tokenizer 的選擇:SimpleAR 使用 Cosmos 作為視覺 tokenizer,但在低分辨率圖像和細(xì)節(jié)重建方面仍存在一定局限性,有待進(jìn)一步改進(jìn)。
SimpleAR的項(xiàng)目地址
- Github倉庫:https://github.com/wdrink/SimpleAR
- HuggingFace模型庫:https://huggingface.co/papers/2504.11455
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.11455
SimpleAR的應(yīng)用場景
- 創(chuàng)意設(shè)計(jì):SimpleAR 能夠幫助設(shè)計(jì)師快速生成高質(zhì)量的圖像,適用于廣告設(shè)計(jì)、海報(bào)制作和藝術(shù)創(chuàng)作等領(lǐng)域。
- 虛擬場景構(gòu)建:通過文本描述生成虛擬場景,為游戲開發(fā)、虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)應(yīng)用提供豐富的素材。
- 多模態(tài)機(jī)器翻譯:SimpleAR 的多模態(tài)融合能力可將圖像信息與文本翻譯相結(jié)合,提高翻譯的準(zhǔn)確性和豐富性。
- 視頻描述生成:通過結(jié)合圖像生成與視頻內(nèi)容,為視頻生成詳細(xì)的描述文本。
- 增強(qiáng)現(xiàn)實(shí)(AR)與虛擬現(xiàn)實(shí)(VR):SimpleAR 可以生成與現(xiàn)實(shí)場景高度融合的虛擬圖像,適用于工業(yè)維修、教育演示和旅游導(dǎo)覽等場景,提升用戶體驗(yàn)。
- 圖像增強(qiáng)與修復(fù):SimpleAR 可用于增強(qiáng)低分辨率圖像的細(xì)節(jié),提高圖像質(zhì)量,并通過生成缺失或損壞部分的圖像內(nèi)容實(shí)現(xiàn)修復(fù)。
# AI工具# AI項(xiàng)目和框架# 增強(qiáng)現(xiàn)實(shí)體驗(yàn)# 多平臺支持# 實(shí)時數(shù)據(jù)分析# 用戶交互界面# 虛擬產(chǎn)品展示
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號