Ilya觀點得證！僅靠預測下一個token統一圖像文本視頻，智源發布原生多模態世界模型Emu3

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：Ilya觀點得證！僅靠預測下一個token統一圖像文本視頻，智源發布原生多模態世界模型Emu3
關鍵字：模型,視覺,數據,圖像,視頻
文章來源：量子位
內容字數：0字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAIOpenAI前首席科學家、聯合創始人Ilya Sutskever曾在多個場合表達觀點：
只要能夠非常好的預測下一個token，就能幫助人類達到通用人工智能（AGI）。
雖然，下一token預測已在大語言模型領域實現了ChatGPT等突破，但是在多模態模型中的適用性仍不明確。多模態任務仍然由擴散模型（如Stable Diffusion）和組合方法（如結合 CLIP視覺編碼器和LLM）所主導。
2024年10月21日，智源研究院正式發布原生多模態世界模型Emu3。該模型只基于下一個token預測，無需擴散模型或組合方法，即可完成文本、圖像、視頻三種模態數據的理解和生成。Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過了SDXL 、LLaVA、OpenSora等知名開源模型，但是無需擴散模型、CLIP視覺編碼器、預訓練的LLM等技術，只需要預測下一個token。
圖注：在圖像生成任務中，基于人類偏好評測，Emu3優于SD-1.5與SDXL模型。在視覺語言理解任務中，對于12 項基準測試的平均得分，Emu3優于LlaVA-1.6。在視頻生

原文鏈接：Ilya觀點得證！僅靠預測下一個token統一圖像文本視頻，智源發布原生多模態世界模型Emu3

聯系作者

文章來源：量子位
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 圖像 # 數據 # 模型 # 視覺 # 視頻

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Ilya觀點得證！僅靠預測下一個token統一圖像文本視頻，智源發布原生多模態世界模型Emu3

AIGC動態歡迎閱讀

內容摘要：

聯系作者

NeurIPS 2024 | 標簽噪聲下圖神經網絡有了首個綜合基準庫，還開源

PPT 滿屏文字？救星來了！這款神器幫你一鍵生成專業插圖！

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Ilya觀點得證！僅靠預測下一個token統一圖像文本視頻，智源發布原生多模態世界模型Emu3

AIGC動態歡迎閱讀

內容摘要：

聯系作者

NeurIPS 2024 | 標簽噪聲下圖神經網絡有了首個綜合基準庫，還開源

PPT 滿屏文字？ 救星來了！這款神器幫你一鍵生成專業插圖！

相關文章

暫無評論

ChatGPT

玩虛擬模特？

PPT 滿屏文字？救星來了！這款神器幫你一鍵生成專業插圖！