黃仁勛圈重點的世界模型平臺是個啥?技術(shù)報告全解析,華人貢獻中堅力量
AI 的下一個前沿是物理。
原標題:黃仁勛圈重點的世界模型平臺是個啥?技術(shù)報告全解析,華人貢獻中堅力量
文章來源:機器之心
內(nèi)容字數(shù):10481字
英偉達發(fā)布Cosmos:物理AI的下一個前沿
近日,英偉達在CES發(fā)布會上推出了Cosmos平臺,標志著AI下一個前沿——物理AI的到來。Cosmos是一個世界模型平臺,提供一系列開源、開放權(quán)重的視頻世界模型,參數(shù)量從4B到14B不等,旨在為機器人、自動駕駛等領(lǐng)域生成大量照片級真實、基于物理的合成數(shù)據(jù),解決數(shù)據(jù)不足的問題。
1. Cosmos平臺的核心功能
Cosmos平臺一次性發(fā)布了8個模型,這些模型基于2000萬小時的視頻數(shù)據(jù)進行訓練,分為擴散模型(連續(xù)token)和自回歸模型(離散token)兩類,支持文本生成視頻和文本+視頻生成視頻兩種方式。已經(jīng)有許多領(lǐng)先的機器人和汽車公司成為Cosmos的首批用戶,例如1X、Agile Robots、Agility和Uber等。
2. 數(shù)據(jù)處理與模型訓練
Cosmos平臺的數(shù)據(jù)處理流程包括視頻數(shù)據(jù)整理pipeline,該pipeline從海量視頻中提取高質(zhì)量片段,并利用視覺語言模型(VLM)進行標注。模型訓練采用基于Transformer的擴散模型和自回歸模型兩種方法,通過將復雜的視頻生成問題分解成更容易解決的子問題來提高效率。 訓練過程使用了由10,000個NVIDIA H100 GPU組成的集群,歷時三個月。
3. 模型架構(gòu)與Tokenizer
Cosmos平臺的模型架構(gòu)基于Transformer,并針對視頻生成任務進行了改進,例如添加了3D感知的位置嵌入和交叉注意力機制。Tokenizer是關(guān)鍵組件,將視頻數(shù)據(jù)轉(zhuǎn)換為token序列,Cosmos平臺提供了連續(xù)型和離散型兩種Tokenizer,實現(xiàn)了高壓縮率和高質(zhì)量的視覺重建。
4. 后訓練與安全機制
預訓練的WFM可以進行后訓練,以適應不同的物理AI任務,例如相機姿態(tài)控制、機器人控制和自動駕駛。為了確保安全,Cosmos平臺還配備了包括前置和后置防護系統(tǒng)在內(nèi)的安全機制,用于阻止有害輸入和輸出。
5. 華人學者的貢獻
值得注意的是,Cosmos平臺的技術(shù)報告顯示,華人學者在該項目中做出了大量貢獻,一些團隊甚至全部由華人組成。這凸顯了華人研究人員在AI領(lǐng)域的重要作用。
6. 開源與未來展望
Cosmos模型和相關(guān)資源已公開發(fā)布,包括預訓練的世界基礎模型、Tokenizer和訓練腳本等,這將推動物理AI領(lǐng)域的快速發(fā)展。英偉達希望通過Cosmos平臺,讓物理AI技術(shù)普及化,讓更多開發(fā)者能夠受益。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺
相關(guān)文章
