100萬token，一次能分析1小時YouTube視頻，「大世界模型」火了

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：100萬token，一次能分析1小時YouTube視頻，「大世界模型」火了
關鍵字：模型,解讀,序列,視頻,上下文
文章來源：機器之心
內容字數：5063字

內容摘要：

機器之心報道
編輯：陳萍、小舟這項研究為語言模型更好地理解物理世界鋪平了道路。最近幾天，我們接連被谷歌的多模態模型 Gemini 1.5 以及 OpenAI 的視頻生成模型 Sora 所震撼到，前者可以處理的上下文窗口達百萬級別，而后者生成的視頻能夠理解中的物理世界，被很多人稱為「世界模型」。然而，這些刷屏無數的模型真的能很好的理解世界嗎？我們就拿 Sora 來說，該模型在給大家帶來驚嘆的同時，卻不能很好的模擬復雜場景的物理原理，如一位健身的男子倒著跑跑步機。不僅 Sora，現如今大模型雖然發展迅速，然而其自身也存在缺點，比如在現實世界中不容易用語言描述的內容，模型理解起來非常困難，又比如這些模型難以處理復雜的長程任務。視頻模型的出現在一定程度上緩解了這個問題，其能提供語言和靜態圖像中所缺少的時間信息，這種信息對 LLM 非常有價值。隨著技術的進步，模型開始變得對文本知識和物理世界有了更好的理解，從而幫助人類。
然而，由于內存限制、計算復雜性和有限的數據集，從數百萬個視頻和語言序列的 token 中進行學習挑戰巨大。
為了應對這些挑戰，來自 UC 伯克利的研究者整理了一個包含各種視

原文鏈接：100萬token，一次能分析1小時YouTube視頻，「大世界模型」火了