統(tǒng)一transformer與diffusion！Meta融合新方法劍指下一代多模態(tài)王者

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：統(tǒng)一transformer與diffusion！Meta融合新方法劍指下一代多模態(tài)王者
關(guān)鍵字：模型,圖像,文本,語言,向量
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：陳陳本文引入了 Transfusion，這是一種可以在離散和連續(xù)數(shù)據(jù)上訓(xùn)練多模態(tài)模型的方法。一般來說，多模態(tài)生成模型需要能夠感知、處理和生成離散元素（如文本或代碼）和連續(xù)元素（如圖像、音頻和視頻數(shù)據(jù)）。
在離散模態(tài)領(lǐng)域，以預(yù)測(cè)下一個(gè)詞為目標(biāo)的語言模型占據(jù)主導(dǎo)地位，而在生成連續(xù)模態(tài)方面，擴(kuò)散模型及其泛化形式則是當(dāng)前最先進(jìn)技術(shù)。
研究者一直試圖將語言模型與擴(kuò)散模型結(jié)合，一種方法是直接擴(kuò)展語言模型，使其能夠利用擴(kuò)散模型作為一個(gè)工具，或者將一個(gè)預(yù)訓(xùn)練的擴(kuò)散模型嫁接到語言模型上。另一種替代方案是對(duì)連續(xù)模態(tài)進(jìn)行量化處理，然后在離散的 token 上訓(xùn)練一個(gè)標(biāo)準(zhǔn)的語言模型，這種方法雖然簡(jiǎn)化了模型架構(gòu)，但也會(huì)造成信息的丟失。
在這項(xiàng)工作中，來自 Meta 、 Waymo 等機(jī)構(gòu)的研究者展示了通過訓(xùn)練單個(gè)模型來預(yù)測(cè)離散文本 token 和擴(kuò)散連續(xù)圖像，從而實(shí)現(xiàn)兩種模態(tài)的完全集成，且不會(huì)丟失任何信息。
具體而言，本文引入了一個(gè)訓(xùn)練模型的新方法 Transfusion，能夠無縫地生成離散和連續(xù)的模態(tài)。Transfusion 將語言模型損失函數(shù)與擴(kuò)散相結(jié)合，在混合模態(tài)序列上訓(xùn)練單個(gè) tra

原文鏈接：統(tǒng)一transformer與diffusion！Meta融合新方法劍指下一代多模態(tài)王者