大視頻模型是世界模型？DeepMind/UC伯克利華人一作：預(yù)測下一幀就能改變世界

AIGC動態(tài)2年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：大視頻模型是世界模型？DeepMind/UC伯克利華人一作：預(yù)測下一幀就能改變世界
關(guān)鍵字：視頻,模型,任務(wù),視覺,語言
文章來源：新智元
內(nèi)容字?jǐn)?shù)：12635字

內(nèi)容摘要：

新智元報道編輯：潤好困
【新智元導(dǎo)讀】谷歌DeepMind、UC伯克利和MIT的研究人員認(rèn)為，如果用大語言模型的思路來做大視頻模型，能解決很多語言模型不擅長的問題，可能能更進(jìn)一步接近世界模型。沒人懷疑，OpenAI開年推出的史詩巨作Sora，將改變視頻相關(guān)領(lǐng)域的內(nèi)容生態(tài)。
但Google DeepMind、UC伯克利和MIT的研究人員更進(jìn)一步，在他們眼里，「大視頻模型」也許能夠像世界模型一樣，真正的做到理解我們身處的這個世界。
論文地址：https://arxiv.org/abs/2402.17139
在作者看來，視頻生成將徹底改變物理世界的決策，就像語言模型如何改變數(shù)字世界一樣。
研究人員認(rèn)為，與文本類似，視頻可以作為一個統(tǒng)一的接口，吸收互聯(lián)網(wǎng)知識并表征不同的任務(wù)。
例如，經(jīng)典的計(jì)算機(jī)視覺任務(wù)可以被視為下一代幀生成任務(wù)（next-frame generation task）。
模型可以通過生成操作視頻（例如「如何制作壽司」）來回答人們的問題，這可能比文本響應(yīng)更直觀。
視覺和算法推理也可以作為下一幀/視頻生成任務(wù)。視頻也可以統(tǒng)一不同實(shí)體（embodiment）的觀察空間（obser

原文鏈接：大視頻模型是世界模型？DeepMind/UC伯克利華人一作：預(yù)測下一幀就能改變世界

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時代。

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大視頻模型是世界模型？DeepMind/UC伯克利華人一作：預(yù)測下一幀就能改變世界

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

北大具身智能成果入選CVPR'24：只需一張圖一個指令，就能讓大模型玩轉(zhuǎn)機(jī)械臂

OpenAI硬懟馬斯克：沒到AGI，就不開源；求職人潮“擠崩”智聯(lián)招聘；周鴻祎、李志飛開AI 課，被網(wǎng)友質(zhì)疑 | AI周報

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

大視頻模型是世界模型？DeepMind/UC伯克利華人一作：預(yù)測下一幀就能改變世界

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

北大具身智能成果入選CVPR'24：只需一張圖一個指令，就能讓大模型玩轉(zhuǎn)機(jī)械臂

OpenAI硬懟馬斯克：沒到AGI，就不開源；求職人潮“擠崩”智聯(lián)招聘；周鴻祎、李志飛開AI 課，被網(wǎng)友質(zhì)疑 | AI周報

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

OpenAI硬懟馬斯克：沒到AGI，就不開源；求職人潮“擠崩”智聯(lián)招聘；周鴻祎、李志飛開AI 課，被網(wǎng)友質(zhì)疑 | AI周報

玩虛擬模特？