零樣本就可以直接泛化
原標題:AI版《黑客帝國》:無限生成逼真視頻,3A畫質,還能實時交互
文章來源:量子位
內容字數:3473字
人類離《黑客帝國》又近一步
近日,一個名為The Matrix的首個AI基礎世界模擬器問世,帶來了令人驚嘆的技術突破。該模擬器能夠生成無限長、高保真的720p真實場景視頻,并實現實時交互。這一項目由全華人團隊開發,成員來自阿里巴巴、香港大學、滑鐵盧大學和加拿大AI研究機構Vector Institute。
無限生成與實時交互
The Matrix可以在長達1小時的時間內穿梭于沙漠、草原、水體和城市等不同景觀,用戶可通過鍵盤實時控制場景的移動,效果每秒可達到16幀。通過結合3A游戲的監督數據與現實世界的無監督視頻,The Matrix展現出驚人的泛化能力,能夠理解和預測不同環境中物體的行為。
核心技術模塊
The Matrix的技術架構主要由三個模塊組成:
- 交互模塊:該模塊理解用戶輸入并將其整合到視頻生成中,允許幀級別的精確控制。
- 移窗去噪過程模型:通過滑動時間窗口處理長時間依賴關系,實現連續、平滑的視頻生成。
- 流一致性模型:提升推理速度,實現實時生成,速度可達8-16 FPS。
數據捕獲與模型訓練
團隊還開發了GameData平臺,用于自動捕獲游戲狀態數據和視頻幀,生成標注的動作幀數據集。這一數據集結合真實世界的視頻數據,增強了模型的視覺質量和域泛化能力。
項目負責人介紹
The Matrix的項目負責人是滑鐵盧大學的助理教授Hongyang Zhang和來自阿里巴巴的Ruili Feng。兩位研究者在基礎模型研究和AI應用領域具有豐富的經驗。
總之,The Matrix不僅實現了高保真度的場景生成和實時交互,還展現了強大的泛化能力,標志著AI模擬技術的又一重要進展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...