語言圖像模型大一統(tǒng)！Meta將Transformer和Diffusion融合，多模態(tài)AI王者登場(chǎng)

AIGC動(dòng)態(tài)9個(gè)月前發(fā)布人工智能學(xué)家

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：語言圖像模型大一統(tǒng)！Meta將Transformer和Diffusion融合，多模態(tài)AI王者登場(chǎng)
關(guān)鍵字：圖像,模型,研究者,文本,序列
文章來源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

來源：新智元編輯：Aeneas 好困
【導(dǎo)讀】就在剛剛，Meta最新發(fā)布的Transfusion，能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了！完美融合Transformer和擴(kuò)散領(lǐng)域之后，語言模型和圖像大一統(tǒng)，又近了一步。也就是說，真正的多模態(tài)AI模型，可能很快就要來了！Transformer和Diffusion，終于有了一次出色的融合。
自此，語言模型和圖像生成大一統(tǒng)的時(shí)代，也就不遠(yuǎn)了！
這背后，正是Meta最近發(fā)布的Transfusion——一種訓(xùn)練能夠生成文本和圖像模型的統(tǒng)一方法。
論文地址：https://arxiv.org/abs/2408.11039
英偉達(dá)高級(jí)科學(xué)家Jim Fan盛贊：之前曾有很多嘗試，去統(tǒng)一Transformer和Diffusion，但都失去了簡(jiǎn)潔和優(yōu)雅。
現(xiàn)在，是時(shí)候來一次Transfusion，來重新激活這種融合了！
在X上，論文共一Chunting Zhou，為我們介紹了Transfusion其中的「玄機(jī)」。
為何它能讓我們?cè)谝粋€(gè)模型中，同時(shí)利用兩種方法的優(yōu)勢(shì)？
這是因?yàn)椋琓ransfusion將語言建模（下一個(gè)token預(yù)測(cè)）與擴(kuò)散相結(jié)合，這樣，就可以在

原文鏈接：語言圖像模型大一統(tǒng)！Meta將Transformer和Diffusion融合，多模態(tài)AI王者登場(chǎng)