AIGC動態歡迎閱讀
原標題:大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預測下一幀就能改變世界
關鍵字:視頻,模型,任務,視覺,語言
文章來源:新智元
內容字數:12635字
內容摘要:
新智元報道編輯:潤 好困
【新智元導讀】谷歌DeepMind、UC伯克利和MIT的研究人員認為,如果用大語言模型的思路來做大視頻模型,能解決很多語言模型不擅長的問題,可能能更進一步接近世界模型。沒人懷疑,OpenAI開年推出的史詩巨作Sora,將改變視頻相關領域的內容生態。
但Google DeepMind、UC伯克利和MIT的研究人員更進一步,在他們眼里,「大視頻模型」也許能夠像世界模型一樣,真正的做到理解我們身處的這個世界。
論文地址:https://arxiv.org/abs/2402.17139
在作者看來,視頻生成將徹底改變物理世界的決策,就像語言模型如何改變數字世界一樣。
研究人員認為,與文本類似,視頻可以作為一個統一的接口,吸收互聯網知識并表征不同的任務。
例如,經典的計算機視覺任務可以被視為下一代幀生成任務(next-frame generation task)。
模型可以通過生成操作視頻(例如「如何制作壽司」)來回答人們的問題,這可能比文本響應更直觀。
視覺和算法推理也可以作為下一幀/視頻生成任務。視頻也可以統一不同實體(embodiment)的觀察空間(obser
原文鏈接:大視頻模型是世界模型?DeepMind/UC伯克利華人一作:預測下一幀就能改變世界
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...