AIGC動態歡迎閱讀
原標題:100萬token,一次能分析1小時YouTube視頻,「大世界模型」火了
關鍵字:模型,解讀,序列,視頻,上下文
文章來源:機器之心
內容字數:5063字
內容摘要:
機器之心報道
編輯:陳萍、小舟這項研究為語言模型更好地理解物理世界鋪平了道路。最近幾天,我們接連被谷歌的多模態模型 Gemini 1.5 以及 OpenAI 的視頻生成模型 Sora 所震撼到,前者可以處理的上下文窗口達百萬級別,而后者生成的視頻能夠理解中的物理世界,被很多人稱為「世界模型」。然而,這些刷屏無數的模型真的能很好的理解世界嗎?我們就拿 Sora 來說,該模型在給大家帶來驚嘆的同時,卻不能很好的模擬復雜場景的物理原理,如一位健身的男子倒著跑跑步機。不僅 Sora,現如今大模型雖然發展迅速,然而其自身也存在缺點,比如在現實世界中不容易用語言描述的內容,模型理解起來非常困難,又比如這些模型難以處理復雜的長程任務。視頻模型的出現在一定程度上緩解了這個問題,其能提供語言和靜態圖像中所缺少的時間信息,這種信息對 LLM 非常有價值。隨著技術的進步,模型開始變得對文本知識和物理世界有了更好的理解,從而幫助人類。
然而,由于內存限制、計算復雜性和有限的數據集,從數百萬個視頻和語言序列的 token 中進行學習挑戰巨大。
為了應對這些挑戰,來自 UC 伯克利的研究者整理了一個包含各種視
原文鏈接:100萬token,一次能分析1小時YouTube視頻,「大世界模型」火了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...