機器人的“ChatGPT時刻”來臨?英偉達帶火世界模型,國內(nèi)廠商緊跟而上,谷歌也坐不住了!
世界模型有望讓物理AI更進一步
原標(biāo)題:機器人的“ChatGPT時刻”來臨?英偉達帶火世界模型,國內(nèi)廠商緊跟而上,谷歌也坐不住了!
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):5817字
2025年:具身智能機器人賽道的“ChatGPT時刻”
2025年伊始,具身智能機器人賽道便迅速升溫。英偉達發(fā)布的Cosmos世界模型開發(fā)平臺,以及智元機器人研究院關(guān)于機器人4D世界模型的論文,都預(yù)示著“世界模型”成為行業(yè)焦點。谷歌也從OpenAI挖角,組建新團隊加速研究模擬物理世界的人工智能模型,種種跡象表明,機器人領(lǐng)域的“ChatGPT時刻”或許即將到來。
1. 英偉達Cosmos:通用的世界基礎(chǔ)模型
英偉達推出的Cosmos旨在幫助開發(fā)者構(gòu)建定制化的世界模型。它是一個通用的世界基礎(chǔ)模型(WFM),能夠利用文本、圖像、視頻和動作等數(shù)據(jù)生成和模擬虛擬世界,準(zhǔn)確模擬場景中物體的空間關(guān)系及其物理交互。Cosmos采用“先預(yù)訓(xùn)練再后訓(xùn)練”的范式,利用大規(guī)模數(shù)據(jù)集進行預(yù)訓(xùn)練,再利用較小規(guī)模數(shù)據(jù)集進行微調(diào),從而更高效地構(gòu)建物理AI系統(tǒng)。其在2000萬小時的現(xiàn)實世界數(shù)據(jù)中訓(xùn)練了9000萬億個token,支持文本到世界或視頻到世界的生成,可用于合成數(shù)據(jù)增強訓(xùn)練數(shù)據(jù)集,并加速AI代理在虛擬世界的強化學(xué)習(xí)。
2. 智元機器人研究院的EnerVerse架構(gòu)
智元機器人研究院針對多模態(tài)對齊和數(shù)據(jù)稀缺問題,提出了EnerVerse架構(gòu)。這是一個自回歸擴散模型,能夠在生成未來具身空間的同時引導(dǎo)機器人完成復(fù)雜任務(wù)。EnerVerse具有卓越的空間生成能力,在機器人動作規(guī)劃任務(wù)中達到最優(yōu)表現(xiàn),并能生成高質(zhì)量合成數(shù)據(jù),減少對真實世界數(shù)據(jù)的依賴,實現(xiàn)模擬與現(xiàn)實的無縫過渡。尤其在長距離機器人操作任務(wù)方面表現(xiàn)突出。
3. 行業(yè)巨頭與初創(chuàng)公司的布局
除了英偉達和智元機器人,其他科技巨頭和初創(chuàng)公司也積極布局世界模型領(lǐng)域。OpenAI投資多家機器人公司,谷歌組建新團隊研究模擬物理世界的人工智能模型。此外,一些新興公司如World Labs也致力于世界模型的研究,相信世界模型未來將廣泛應(yīng)用于機器人、自動駕駛等領(lǐng)域。
4. 生成式AI的下一個里程碑
基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的生成式模型已改變文本、圖像和視頻內(nèi)容的創(chuàng)作方式。生成式模型的下一個里程碑是更逼真地模擬現(xiàn)實世界物理特性,對人類、機器人等交互主體的行動做出響應(yīng)。2025年,隨著世界模型技術(shù)的不斷發(fā)展,這一里程碑或許將實現(xiàn)。
總而言之,世界模型正在成為具身智能機器人領(lǐng)域的關(guān)鍵技術(shù),其發(fā)展將極大地推動機器人技術(shù)的進步,并為未來智能化社會帶來性的變化。
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化