100萬(wàn)token,一次能分析1小時(shí)YouTube視頻,「大世界模型」火了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:100萬(wàn)token,一次能分析1小時(shí)YouTube視頻,「大世界模型」火了
關(guān)鍵字:模型,解讀,序列,視頻,上下文
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5063字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:陳萍、小舟這項(xiàng)研究為語(yǔ)言模型更好地理解物理世界鋪平了道路。最近幾天,我們接連被谷歌的多模態(tài)模型 Gemini 1.5 以及 OpenAI 的視頻生成模型 Sora 所震撼到,前者可以處理的上下文窗口達(dá)百萬(wàn)級(jí)別,而后者生成的視頻能夠理解中的物理世界,被很多人稱(chēng)為「世界模型」。然而,這些刷屏無(wú)數(shù)的模型真的能很好的理解世界嗎?我們就拿 Sora 來(lái)說(shuō),該模型在給大家?guī)?lái)驚嘆的同時(shí),卻不能很好的模擬復(fù)雜場(chǎng)景的物理原理,如一位健身的男子倒著跑跑步機(jī)。不僅 Sora,現(xiàn)如今大模型雖然發(fā)展迅速,然而其自身也存在缺點(diǎn),比如在現(xiàn)實(shí)世界中不容易用語(yǔ)言描述的內(nèi)容,模型理解起來(lái)非常困難,又比如這些模型難以處理復(fù)雜的長(zhǎng)程任務(wù)。視頻模型的出現(xiàn)在一定程度上緩解了這個(gè)問(wèn)題,其能提供語(yǔ)言和靜態(tài)圖像中所缺少的時(shí)間信息,這種信息對(duì) LLM 非常有價(jià)值。隨著技術(shù)的進(jìn)步,模型開(kāi)始變得對(duì)文本知識(shí)和物理世界有了更好的理解,從而幫助人類(lèi)。
然而,由于內(nèi)存限制、計(jì)算復(fù)雜性和有限的數(shù)據(jù)集,從數(shù)百萬(wàn)個(gè)視頻和語(yǔ)言序列的 token 中進(jìn)行學(xué)習(xí)挑戰(zhàn)巨大。
為了應(yīng)對(duì)這些挑戰(zhàn),來(lái)自 UC 伯克利的研究者整理了一個(gè)包含各種視
原文鏈接:100萬(wàn)token,一次能分析1小時(shí)YouTube視頻,「大世界模型」火了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)