AIGC動態歡迎閱讀
原標題:與Sora一樣能生成視頻、圖像,還能一次解讀100萬數據!
關鍵字:華為,字節跳動,模型,侵權,序列
文章來源:AI前線
內容字數:4078字
內容摘要:
來源| AIGC開放社區
大語言模型(LLM)在生成文本內容方面非常強,但在理解、生成視頻、圖像等方面略顯不足。尤其是在 Sora 一夜爆紅之后,讓人們意識到未來主流模型一定是文本 + 音頻 + 圖像 + 視頻的多模態生成、理解功能。
因此,加州大學伯克利分校的研究人員開源了一種訓練數據更多、理解能力更強的基礎模型——大世界模型(Large World Model,簡稱“LWM”)。
LWM 是一種通用的多模態自回歸模型,與前不久谷歌發布的 Gemini 1.5 一樣,一次性可精準解答 100 萬 tokens 的視頻、文本,例如,LWM 可以正確回答 1 小時 YouTube 視頻中包含 500 多個視頻片段的問題。
開源地址:https://github.com/LargeWorldModel/LWM
論文地址:https://arxiv.org/abs/2402.08268
huggingface:https://huggingface.co/LargeWorldModel
此外,LWM 可以精準檢索 100 萬 tokens 文本中的內容,同時與 Sora 一樣具備文本生成視頻
原文鏈接:與Sora一樣能生成視頻、圖像,還能一次解讀100萬數據!
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...