語言圖像模型大一統(tǒng)!Meta將Transformer和Diffusion融合,多模態(tài)AI王者登場(chǎng)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:語言圖像模型大一統(tǒng)!Meta將Transformer和Diffusion融合,多模態(tài)AI王者登場(chǎng)
關(guān)鍵字:圖像,模型,研究者,文本,序列
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
來源:新智元編輯:Aeneas 好困
【導(dǎo)讀】就在剛剛,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴(kuò)散領(lǐng)域之后,語言模型和圖像大一統(tǒng),又近了一步。也就是說,真正的多模態(tài)AI模型,可能很快就要來了!Transformer和Diffusion,終于有了一次出色的融合。
自此,語言模型和圖像生成大一統(tǒng)的時(shí)代,也就不遠(yuǎn)了!
這背后,正是Meta最近發(fā)布的Transfusion——一種訓(xùn)練能夠生成文本和圖像模型的統(tǒng)一方法。
論文地址:https://arxiv.org/abs/2408.11039
英偉達(dá)高級(jí)科學(xué)家Jim Fan盛贊:之前曾有很多嘗試,去統(tǒng)一Transformer和Diffusion,但都失去了簡(jiǎn)潔和優(yōu)雅。
現(xiàn)在,是時(shí)候來一次Transfusion,來重新激活這種融合了!
在X上,論文共一Chunting Zhou,為我們介紹了Transfusion其中的「玄機(jī)」。
為何它能讓我們?cè)谝粋€(gè)模型中,同時(shí)利用兩種方法的優(yōu)勢(shì)?
這是因?yàn)椋琓ransfusion將語言建模(下一個(gè)token預(yù)測(cè))與擴(kuò)散相結(jié)合,這樣,就可以在
原文鏈接:語言圖像模型大一統(tǒng)!Meta將Transformer和Diffusion融合,多模態(tài)AI王者登場(chǎng)
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:
作者簡(jiǎn)介: