涉及多篇CVPR'24 Highlight!通研院研究員賈寶雄主講具身智能視角下的三維場景理解、生成與交互
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:涉及多篇CVPR'24 Highlight!通研院研究員賈寶雄主講具身智能視角下的三維場景理解、生成與交互
關(guān)鍵字:場景,智能,數(shù)據(jù),猩猩,論文
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
智猩猩機(jī)器人新青年講座由AI與硬科技知識(shí)分享社區(qū)「智猩猩」全新企劃,致力于邀請全球知名高校、頂尖研究機(jī)構(gòu)以及優(yōu)秀企業(yè)的青年學(xué)者,主講在具身智能、強(qiáng)化學(xué)習(xí)、多智能體系統(tǒng)、建模仿真等機(jī)器人關(guān)鍵前沿技術(shù)上的研究成果和開發(fā)實(shí)踐。具身智能的發(fā)展離不開對(duì)物理世界的理解與交互,這些理解與交互受限于三維數(shù)據(jù)的獲取,尤其是與語義對(duì)齊的三維場景數(shù)據(jù)。這在很大程度上限制了現(xiàn)有模型及方法在具身智能方向上的有效性。
針對(duì)當(dāng)前問題,北京通研院BIGAI通用視覺實(shí)驗(yàn)室研究員賈寶雄博士等研究人員提出一個(gè)百萬級(jí)別的3D視覺語言數(shù)據(jù)集SceneVerse,并提出了Grounded Pre-training for Scenes (GPS)預(yù)訓(xùn)練框架,與SceneVerse相關(guān)成果收錄于ECCV 2024。他們通過SceneVerse試圖匯集現(xiàn)有大部分真實(shí)三維場景數(shù)據(jù),并開發(fā)基于大語言模型的工具鏈進(jìn)行有效地三維場景-語義數(shù)據(jù)生成,通過scaling來提升現(xiàn)有模型在三維場景理解方向上的效果。然而,想要完成可泛化的具身智能體訓(xùn)練,尤其是涉及與場景的真實(shí)交互,需要大量的真實(shí)數(shù)據(jù)。但真實(shí)掃描數(shù)據(jù)很難被放入模擬器中,因此在數(shù)據(jù)量和質(zhì)
原文鏈接:涉及多篇CVPR'24 Highlight!通研院研究員賈寶雄主講具身智能視角下的三維場景理解、生成與交互
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。