擴(kuò)散模型失寵?端側(cè)非自回歸圖像生成基礎(chǔ)模型Meissonic登場(chǎng),超越SDXL!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:擴(kuò)散模型失寵?端側(cè)非自回歸圖像生成基礎(chǔ)模型Meissonic登場(chǎng),超越SDXL!
關(guān)鍵字:圖像,模型,高效,分辨率,文本
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRST
【新智元導(dǎo)讀】剛剛,一款專為消費(fèi)級(jí)顯卡設(shè)計(jì)的全新非自回歸掩碼圖像建模的文本到圖像生成模型——Meissonic發(fā)布,標(biāo)志著圖像生成即將進(jìn)入「端側(cè)時(shí)代」。最近,YouTube和Reddit上出現(xiàn)了一個(gè)引起廣泛討論的圖像生成模型,來自日本、韓國(guó)、美國(guó)、、中東和英國(guó)的網(wǎng)友們紛紛參與討論。Youtube熱烈討論
那么,這到底是怎么回事呢?讓我們一起來看看吧。
近年來,大語言模型在自然語言處理領(lǐng)域取得了巨大的突破,以LLaMA和Qwen等為代表的模型展現(xiàn)了強(qiáng)大的語言理解和生成能力。
但是,圖像生成技術(shù)的突破主要得益于擴(kuò)散模型,如Stable Diffusion XL在圖像質(zhì)量、細(xì)節(jié)和概念一致性方面設(shè)立了事實(shí)標(biāo)準(zhǔn)。
然而,這些擴(kuò)散模型與自回歸語言模型的工作原理和架構(gòu)顯著不同,導(dǎo)致在視覺和語言任務(wù)上實(shí)現(xiàn)統(tǒng)一生成方法面臨挑戰(zhàn)。這種差異不僅使這些模態(tài)的整合變得復(fù)雜,還凸顯了需要?jiǎng)?chuàng)新的方法來彌合它們之間的差距。
自回歸文本到圖像模型(如LlamaGen)通過預(yù)測(cè)下一個(gè)token生成圖像,但由于生成的圖像token數(shù)量龐大,自回歸模型在效率和分辨率上也面臨瓶頸,難以應(yīng)用到實(shí)
原文鏈接:擴(kuò)散模型失寵?端側(cè)非自回歸圖像生成基礎(chǔ)模型Meissonic登場(chǎng),超越SDXL!
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡(jiǎn)介: