統(tǒng)一transformer與diffusion!Meta融合新方法劍指下一代多模態(tài)王者
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:統(tǒng)一transformer與diffusion!Meta融合新方法劍指下一代多模態(tài)王者
關(guān)鍵字:模型,圖像,文本,語言,向量
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳陳本文引入了 Transfusion,這是一種可以在離散和連續(xù)數(shù)據(jù)上訓(xùn)練多模態(tài)模型的方法。一般來說,多模態(tài)生成模型需要能夠感知、處理和生成離散元素(如文本或代碼)和連續(xù)元素(如圖像、音頻和視頻數(shù)據(jù))。
在離散模態(tài)領(lǐng)域,以預(yù)測下一個(gè)詞為目標(biāo)的語言模型占據(jù)主導(dǎo)地位,而在生成連續(xù)模態(tài)方面,擴(kuò)散模型及其泛化形式則是當(dāng)前最先進(jìn)技術(shù)。
研究者一直試圖將語言模型與擴(kuò)散模型結(jié)合,一種方法是直接擴(kuò)展語言模型,使其能夠利用擴(kuò)散模型作為一個(gè)工具,或者將一個(gè)預(yù)訓(xùn)練的擴(kuò)散模型嫁接到語言模型上。另一種替代方案是對連續(xù)模態(tài)進(jìn)行量化處理,然后在離散的 token 上訓(xùn)練一個(gè)標(biāo)準(zhǔn)的語言模型,這種方法雖然簡化了模型架構(gòu),但也會(huì)造成信息的丟失。
在這項(xiàng)工作中,來自 Meta 、 Waymo 等機(jī)構(gòu)的研究者展示了通過訓(xùn)練單個(gè)模型來預(yù)測離散文本 token 和擴(kuò)散連續(xù)圖像,從而實(shí)現(xiàn)兩種模態(tài)的完全集成,且不會(huì)丟失任何信息。
具體而言,本文引入了一個(gè)訓(xùn)練模型的新方法 Transfusion,能夠無縫地生成離散和連續(xù)的模態(tài)。Transfusion 將語言模型損失函數(shù)與擴(kuò)散相結(jié)合,在混合模態(tài)序列上訓(xùn)練單個(gè) tra
原文鏈接:統(tǒng)一transformer與diffusion!Meta融合新方法劍指下一代多模態(tài)王者
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: