AIGC動態歡迎閱讀
原標題:搞定圖像+文本+視頻大一統!智源發布多模態世界模型Emu3:下一個token預測直通AGI
關鍵字:模型,視覺,數據,圖像,視頻
文章來源:智東西
內容字數:0字
內容摘要:
下一個token預測,通向多模態AGI。
OpenAI前首席科學家、聯合創始人Ilya Sutskever曾在多個場合表達觀點:只要能夠非常好的預測下一個token,就能幫助人類達到通用人工智能(AGI)。
雖然,下一token預測已在大語言模型領域實現了ChatGPT等突破,但是在多模態模型中的適用性仍不明確,多模態任務仍然由擴散模型(如Stable Diffusion)和組合方法(如結合 CLIP視覺編碼器和LLM)所主導。
2024年10月21日,智源研究院正式發布原生多模態世界模型Emu3。該模型只基于下一個token預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過了SDXL 、LLaVA、OpenSora等知名開源模型,但是無需擴散模型、CLIP視覺編碼器、預訓練的LLM等技術,只需要預測下一個token。
圖注:在圖像生成任務中,基于人類偏好評測,Emu3優于SD-1.5與SDXL模型。在視覺語言理解任務中,對于12 項基準測試的平均得分,Emu3優于LlaVA-1.6。在視頻生成任務中,
原文鏈接:搞定圖像+文本+視頻大一統!智源發布多模態世界模型Emu3:下一個token預測直通AGI
聯系作者
文章來源:智東西
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...