AIGC動態歡迎閱讀
原標題:Ilya預言成真,下一個token預測直達AGI!智源首發原生多模態世界模型Emu3,不用擴散
關鍵字:模型,數據,視覺,圖像,視頻
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:編輯部 HYZ
【新智元導讀】最近,Ilya向黃仁勛描述「只要能預測下一個token,就能達到AGI」的視頻再次爆火全網,他的預言剛剛竟被證實?智源研究院基于下一個token預測,發布了原生多模態世界模型Emu3,無需擴散即可理解生成三種模態數據!雖然,下一token預測已在大語言模型領域實現了ChatGPT等突破,但是在多模態模型中的適用性仍不明確,多模態任務仍然由擴散模型(如Stable Diffusion)和組合方法(如結合CLIP視覺編碼器和LLM)所主導。
2024年10月21日,智源研究院正式發布原生多模態世界模型Emu3。該模型只基于下一個token預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過了SDXL、LLaVA、OpenSora等知名開源模型,但是無需擴散模型、CLIP視覺編碼器、預訓練的LLM等技術,只需要預測下一個token。
在圖像生成任務中,基于人類偏好評測,Emu3優于SD-1.5與SDXL模型。在視覺語言理解任務中,對于12項基準測試的平均得分,Em
原文鏈接:Ilya預言成真,下一個token預測直達AGI!智源首發原生多模態世界模型Emu3,不用擴散
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...