擴(kuò)散模型失寵？端側(cè)非自回歸圖像生成基礎(chǔ)模型Meissonic登場(chǎng)，超越SDXL！

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：擴(kuò)散模型失寵？端側(cè)非自回歸圖像生成基礎(chǔ)模型Meissonic登場(chǎng)，超越SDXL！
關(guān)鍵字：圖像,模型,高效,分辨率,文本
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：LRST
【新智元導(dǎo)讀】剛剛，一款專為消費(fèi)級(jí)顯卡設(shè)計(jì)的全新非自回歸掩碼圖像建模的文本到圖像生成模型——Meissonic發(fā)布，標(biāo)志著圖像生成即將進(jìn)入「端側(cè)時(shí)代」。最近，YouTube和Reddit上出現(xiàn)了一個(gè)引起廣泛討論的圖像生成模型，來自日本、韓國(guó)、美國(guó)、、中東和英國(guó)的網(wǎng)友們紛紛參與討論。Youtube熱烈討論
那么，這到底是怎么回事呢？讓我們一起來看看吧。
近年來，大語言模型在自然語言處理領(lǐng)域取得了巨大的突破，以LLaMA和Qwen等為代表的模型展現(xiàn)了強(qiáng)大的語言理解和生成能力。
但是，圖像生成技術(shù)的突破主要得益于擴(kuò)散模型，如Stable Diffusion XL在圖像質(zhì)量、細(xì)節(jié)和概念一致性方面設(shè)立了事實(shí)標(biāo)準(zhǔn)。
然而，這些擴(kuò)散模型與自回歸語言模型的工作原理和架構(gòu)顯著不同，導(dǎo)致在視覺和語言任務(wù)上實(shí)現(xiàn)統(tǒng)一生成方法面臨挑戰(zhàn)。這種差異不僅使這些模態(tài)的整合變得復(fù)雜，還凸顯了需要?jiǎng)?chuàng)新的方法來彌合它們之間的差距。
自回歸文本到圖像模型（如LlamaGen）通過預(yù)測(cè)下一個(gè)token生成圖像，但由于生成的圖像token數(shù)量龐大，自回歸模型在效率和分辨率上也面臨瓶頸，難以應(yīng)用到實(shí)

原文鏈接：擴(kuò)散模型失寵？端側(cè)非自回歸圖像生成基礎(chǔ)模型Meissonic登場(chǎng)，超越SDXL！