AI 的下一個前沿是物理。
原標題:黃仁勛圈重點的世界模型平臺是個啥?技術報告全解析,華人貢獻中堅力量
文章來源:機器之心
內容字數:10481字
英偉達發布Cosmos:物理AI的下一個前沿
近日,英偉達在CES發布會上推出了Cosmos平臺,標志著AI下一個前沿——物理AI的到來。Cosmos是一個世界模型平臺,提供一系列開源、開放權重的視頻世界模型,參數量從4B到14B不等,旨在為機器人、自動駕駛等領域生成大量照片級真實、基于物理的合成數據,解決數據不足的問題。
1. Cosmos平臺的核心功能
Cosmos平臺一次性發布了8個模型,這些模型基于2000萬小時的視頻數據進行訓練,分為擴散模型(連續token)和自回歸模型(離散token)兩類,支持文本生成視頻和文本+視頻生成視頻兩種方式。已經有許多領先的機器人和汽車公司成為Cosmos的首批用戶,例如1X、Agile Robots、Agility和Uber等。
2. 數據處理與模型訓練
Cosmos平臺的數據處理流程包括視頻數據整理pipeline,該pipeline從海量視頻中提取高質量片段,并利用視覺語言模型(VLM)進行標注。模型訓練采用基于Transformer的擴散模型和自回歸模型兩種方法,通過將復雜的視頻生成問題分解成更容易解決的子問題來提高效率。 訓練過程使用了由10,000個NVIDIA H100 GPU組成的集群,歷時三個月。
3. 模型架構與Tokenizer
Cosmos平臺的模型架構基于Transformer,并針對視頻生成任務進行了改進,例如添加了3D感知的位置嵌入和交叉注意力機制。Tokenizer是關鍵組件,將視頻數據轉換為token序列,Cosmos平臺提供了連續型和離散型兩種Tokenizer,實現了高壓縮率和高質量的視覺重建。
4. 后訓練與安全機制
預訓練的WFM可以進行后訓練,以適應不同的物理AI任務,例如相機姿態控制、機器人控制和自動駕駛。為了確保安全,Cosmos平臺還配備了包括前置和后置防護系統在內的安全機制,用于阻止有害輸入和輸出。
5. 華人學者的貢獻
值得注意的是,Cosmos平臺的技術報告顯示,華人學者在該項目中做出了大量貢獻,一些團隊甚至全部由華人組成。這凸顯了華人研究人員在AI領域的重要作用。
6. 開源與未來展望
Cosmos模型和相關資源已公開發布,包括預訓練的世界基礎模型、Tokenizer和訓練腳本等,這將推動物理AI領域的快速發展。英偉達希望通過Cosmos平臺,讓物理AI技術普及化,讓更多開發者能夠受益。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺