Ilya預(yù)言成真,下一個(gè)token預(yù)測(cè)直達(dá)AGI!智源首發(fā)原生多模態(tài)世界模型Emu3,不用擴(kuò)散
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Ilya預(yù)言成真,下一個(gè)token預(yù)測(cè)直達(dá)AGI!智源首發(fā)原生多模態(tài)世界模型Emu3,不用擴(kuò)散
關(guān)鍵字:模型,數(shù)據(jù),視覺(jué),圖像,視頻
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:編輯部 HYZ
【新智元導(dǎo)讀】最近,Ilya向黃仁勛描述「只要能預(yù)測(cè)下一個(gè)token,就能達(dá)到AGI」的視頻再次爆火全網(wǎng),他的預(yù)言剛剛竟被證實(shí)?智源研究院基于下一個(gè)token預(yù)測(cè),發(fā)布了原生多模態(tài)世界模型Emu3,無(wú)需擴(kuò)散即可理解生成三種模態(tài)數(shù)據(jù)!雖然,下一token預(yù)測(cè)已在大語(yǔ)言模型領(lǐng)域?qū)崿F(xiàn)了ChatGPT等突破,但是在多模態(tài)模型中的適用性仍不明確,多模態(tài)任務(wù)仍然由擴(kuò)散模型(如Stable Diffusion)和組合方法(如結(jié)合CLIP視覺(jué)編碼器和LLM)所主導(dǎo)。
2024年10月21日,智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。該模型只基于下一個(gè)token預(yù)測(cè),無(wú)需擴(kuò)散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。Emu3在圖像生成、視頻生成、視覺(jué)語(yǔ)言理解等任務(wù)中超過(guò)了SDXL、LLaVA、OpenSora等知名開源模型,但是無(wú)需擴(kuò)散模型、CLIP視覺(jué)編碼器、預(yù)訓(xùn)練的LLM等技術(shù),只需要預(yù)測(cè)下一個(gè)token。
在圖像生成任務(wù)中,基于人類偏好評(píng)測(cè),Emu3優(yōu)于SD-1.5與SDXL模型。在視覺(jué)語(yǔ)言理解任務(wù)中,對(duì)于12項(xiàng)基準(zhǔn)測(cè)試的平均得分,Em
原文鏈接:Ilya預(yù)言成真,下一個(gè)token預(yù)測(cè)直達(dá)AGI!智源首發(fā)原生多模態(tài)世界模型Emu3,不用擴(kuò)散
聯(lián)系作者
文章來(lái)源:新智元
作者微信:
作者簡(jiǎn)介: