黃仁勛圈重點(diǎn)的世界模型平臺(tái)是個(gè)啥?技術(shù)報(bào)告全解析,華人貢獻(xiàn)中堅(jiān)力量
AI 的下一個(gè)前沿是物理。
原標(biāo)題:黃仁勛圈重點(diǎn)的世界模型平臺(tái)是個(gè)啥?技術(shù)報(bào)告全解析,華人貢獻(xiàn)中堅(jiān)力量
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10481字
英偉達(dá)發(fā)布Cosmos:物理AI的下一個(gè)前沿
近日,英偉達(dá)在CES發(fā)布會(huì)上推出了Cosmos平臺(tái),標(biāo)志著AI下一個(gè)前沿——物理AI的到來(lái)。Cosmos是一個(gè)世界模型平臺(tái),提供一系列開源、開放權(quán)重的視頻世界模型,參數(shù)量從4B到14B不等,旨在為機(jī)器人、自動(dòng)駕駛等領(lǐng)域生成大量照片級(jí)真實(shí)、基于物理的合成數(shù)據(jù),解決數(shù)據(jù)不足的問(wèn)題。
1. Cosmos平臺(tái)的核心功能
Cosmos平臺(tái)一次性發(fā)布了8個(gè)模型,這些模型基于2000萬(wàn)小時(shí)的視頻數(shù)據(jù)進(jìn)行訓(xùn)練,分為擴(kuò)散模型(連續(xù)token)和自回歸模型(離散token)兩類,支持文本生成視頻和文本+視頻生成視頻兩種方式。已經(jīng)有許多領(lǐng)先的機(jī)器人和汽車公司成為Cosmos的首批用戶,例如1X、Agile Robots、Agility和Uber等。
2. 數(shù)據(jù)處理與模型訓(xùn)練
Cosmos平臺(tái)的數(shù)據(jù)處理流程包括視頻數(shù)據(jù)整理pipeline,該pipeline從海量視頻中提取高質(zhì)量片段,并利用視覺(jué)語(yǔ)言模型(VLM)進(jìn)行標(biāo)注。模型訓(xùn)練采用基于Transformer的擴(kuò)散模型和自回歸模型兩種方法,通過(guò)將復(fù)雜的視頻生成問(wèn)題分解成更容易解決的子問(wèn)題來(lái)提高效率。 訓(xùn)練過(guò)程使用了由10,000個(gè)NVIDIA H100 GPU組成的集群,歷時(shí)三個(gè)月。
3. 模型架構(gòu)與Tokenizer
Cosmos平臺(tái)的模型架構(gòu)基于Transformer,并針對(duì)視頻生成任務(wù)進(jìn)行了改進(jìn),例如添加了3D感知的位置嵌入和交叉注意力機(jī)制。Tokenizer是關(guān)鍵組件,將視頻數(shù)據(jù)轉(zhuǎn)換為token序列,Cosmos平臺(tái)提供了連續(xù)型和離散型兩種Tokenizer,實(shí)現(xiàn)了高壓縮率和高質(zhì)量的視覺(jué)重建。
4. 后訓(xùn)練與安全機(jī)制
預(yù)訓(xùn)練的WFM可以進(jìn)行后訓(xùn)練,以適應(yīng)不同的物理AI任務(wù),例如相機(jī)姿態(tài)控制、機(jī)器人控制和自動(dòng)駕駛。為了確保安全,Cosmos平臺(tái)還配備了包括前置和后置防護(hù)系統(tǒng)在內(nèi)的安全機(jī)制,用于阻止有害輸入和輸出。
5. 華人學(xué)者的貢獻(xiàn)
值得注意的是,Cosmos平臺(tái)的技術(shù)報(bào)告顯示,華人學(xué)者在該項(xiàng)目中做出了大量貢獻(xiàn),一些團(tuán)隊(duì)甚至全部由華人組成。這凸顯了華人研究人員在AI領(lǐng)域的重要作用。
6. 開源與未來(lái)展望
Cosmos模型和相關(guān)資源已公開發(fā)布,包括預(yù)訓(xùn)練的世界基礎(chǔ)模型、Tokenizer和訓(xùn)練腳本等,這將推動(dòng)物理AI領(lǐng)域的快速發(fā)展。英偉達(dá)希望通過(guò)Cosmos平臺(tái),讓物理AI技術(shù)普及化,讓更多開發(fā)者能夠受益。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)