Ilya預(yù)言成真，下一個token預(yù)測直達AGI！智源首發(fā)原生多模態(tài)世界模型Emu3，不用擴散

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：Ilya預(yù)言成真，下一個token預(yù)測直達AGI！智源首發(fā)原生多模態(tài)世界模型Emu3，不用擴散
關(guān)鍵字：模型,數(shù)據(jù),視覺,圖像,視頻
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：編輯部 HYZ
【新智元導(dǎo)讀】最近，Ilya向黃仁勛描述「只要能預(yù)測下一個token，就能達到AGI」的視頻再次爆火全網(wǎng)，他的預(yù)言剛剛竟被證實？智源研究院基于下一個token預(yù)測，發(fā)布了原生多模態(tài)世界模型Emu3，無需擴散即可理解生成三種模態(tài)數(shù)據(jù)！雖然，下一token預(yù)測已在大語言模型領(lǐng)域?qū)崿F(xiàn)了ChatGPT等突破，但是在多模態(tài)模型中的適用性仍不明確，多模態(tài)任務(wù)仍然由擴散模型（如Stable Diffusion）和組合方法（如結(jié)合CLIP視覺編碼器和LLM）所主導(dǎo)。
2024年10月21日，智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。該模型只基于下一個token預(yù)測，無需擴散模型或組合方法，即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。Emu3在圖像生成、視頻生成、視覺語言理解等任務(wù)中超過了SDXL、LLaVA、OpenSora等知名開源模型，但是無需擴散模型、CLIP視覺編碼器、預(yù)訓(xùn)練的LLM等技術(shù)，只需要預(yù)測下一個token。
在圖像生成任務(wù)中，基于人類偏好評測，Emu3優(yōu)于SD-1.5與SDXL模型。在視覺語言理解任務(wù)中，對于12項基準測試的平均得分，Em

原文鏈接：Ilya預(yù)言成真，下一個token預(yù)測直達AGI！智源首發(fā)原生多模態(tài)世界模型Emu3，不用擴散