大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預測下一幀就能改變世界
AIGC動態(tài)歡迎閱讀
原標題:大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預測下一幀就能改變世界
關(guān)鍵字:視頻,模型,任務,視覺,語言
文章來源:新智元
內(nèi)容字數(shù):12635字
內(nèi)容摘要:
新智元報道編輯:潤 好困
【新智元導讀】谷歌DeepMind、UC伯克利和MIT的研究人員認為,如果用大語言模型的思路來做大視頻模型,能解決很多語言模型不擅長的問題,可能能更進一步接近世界模型。沒人懷疑,OpenAI開年推出的史詩巨作Sora,將改變視頻相關(guān)領(lǐng)域的內(nèi)容生態(tài)。
但Google DeepMind、UC伯克利和MIT的研究人員更進一步,在他們眼里,「大視頻模型」也許能夠像世界模型一樣,真正的做到理解我們身處的這個世界。
論文地址:https://arxiv.org/abs/2402.17139
在作者看來,視頻生成將徹底改變物理世界的決策,就像語言模型如何改變數(shù)字世界一樣。
研究人員認為,與文本類似,視頻可以作為一個統(tǒng)一的接口,吸收互聯(lián)網(wǎng)知識并表征不同的任務。
例如,經(jīng)典的計算機視覺任務可以被視為下一代幀生成任務(next-frame generation task)。
模型可以通過生成操作視頻(例如「如何制作壽司」)來回答人們的問題,這可能比文本響應更直觀。
視覺和算法推理也可以作為下一幀/視頻生成任務。視頻也可以統(tǒng)一不同實體(embodiment)的觀察空間(obser
原文鏈接:大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預測下一幀就能改變世界
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。