Gen2Act是一種由谷歌、卡內(nèi)基梅隆大學(xué)和斯坦福大合開(kāi)發(fā)的機(jī)器人操作策略。它通過(guò)利用網(wǎng)絡(luò)視頻數(shù)據(jù)中的信息,生成與人類相似的執(zhí)行任務(wù)的視頻,從而引導(dǎo)機(jī)器人完成新的任務(wù)。該策略依托于海量的網(wǎng)絡(luò)視頻資源,規(guī)避了直接生成機(jī)器人視頻所帶來(lái)的復(fù)雜性。Gen2Act具備強(qiáng)大的泛化能力,能夠適應(yīng)未見(jiàn)過(guò)的物體和動(dòng)作,在實(shí)際應(yīng)用中顯著提升了任務(wù)執(zhí)行的成功率。
Gen2Act是什么
Gen2Act是由谷歌、卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)共同推出的一種機(jī)器人操作策略,基于預(yù)測(cè)網(wǎng)絡(luò)數(shù)據(jù)中的信息來(lái)生類視頻,并將視頻用在引導(dǎo)機(jī)器人執(zhí)行新任務(wù)。該策略利用大量可用的網(wǎng)絡(luò)視頻數(shù)據(jù),避免了直接生成機(jī)器人視頻的復(fù)雜性。Gen2Act的核心在于零樣本的人類視頻生成,結(jié)合預(yù)訓(xùn)練的視頻生成模型和少量的機(jī)器人交互數(shù)據(jù)進(jìn)行策略訓(xùn)練。在真實(shí)世界的應(yīng)用中,Gen2Act展現(xiàn)出強(qiáng)大的泛化能力,能夠操作未曾見(jiàn)過(guò)的物體并執(zhí)行新動(dòng)作,相較于其他方法,其成功率顯著提高。此外,Gen2Act支持復(fù)雜任務(wù)的長(zhǎng)時(shí)間執(zhí)行,如連續(xù)完成“制作咖啡”等多步驟活動(dòng)。這一方法減少了對(duì)大規(guī)模機(jī)器人數(shù)據(jù)采集的需求,并通過(guò)閉環(huán)策略動(dòng)態(tài)調(diào)整,提高了操作的準(zhǔn)確性。

Gen2Act的主要功能
- 零樣本視頻生成:Gen2Act可以直接利用預(yù)訓(xùn)練的視頻生成模型,根據(jù)語(yǔ)言描述的任務(wù)和場(chǎng)景圖像生類執(zhí)行任務(wù)的視頻,而無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào)。
- 泛化到新任務(wù):通過(guò)生成的人類視頻引導(dǎo),Gen2Act使機(jī)器人能夠執(zhí)行在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過(guò)的新任務(wù),包括操作未見(jiàn)過(guò)的物體和執(zhí)行新的動(dòng)作。
- 閉環(huán)策略執(zhí)行:結(jié)合生成的視頻和機(jī)器人的實(shí)時(shí)觀察,Gen2Act通過(guò)閉環(huán)策略動(dòng)態(tài)調(diào)整機(jī)器人的動(dòng)作,以適應(yīng)變化的場(chǎng)景,確保準(zhǔn)確執(zhí)行任務(wù)。
- 長(zhǎng)時(shí)任務(wù)處理:Gen2Act能夠完成單一任務(wù),并基于任務(wù)序列的鏈接,執(zhí)行一系列復(fù)雜的長(zhǎng)時(shí)任務(wù),如“制作咖啡”,涉及多個(gè)步驟的連續(xù)操作。
- 減少數(shù)據(jù)需求:Gen2Act只需較少的機(jī)器人演示數(shù)據(jù),大幅降低了數(shù)據(jù)收集的成本和工作量。
Gen2Act的技術(shù)原理
- 人類視頻生成:基于預(yù)訓(xùn)練的視頻生成模型,利用語(yǔ)言描述的任務(wù)和場(chǎng)景的首幀圖像,實(shí)現(xiàn)零樣本的人類任務(wù)視頻生成。
- 視頻到動(dòng)作的翻譯:通過(guò)閉環(huán)策略,將生成的人類視頻轉(zhuǎn)化為機(jī)器人的動(dòng)作,策略利用視頻的視覺(jué)特征和點(diǎn)軌跡預(yù)測(cè)隱式編碼的信息。
- 視覺(jué)特征提取:使用ViT編碼器和Transformer編碼器從生成的視頻和機(jī)器人的觀察歷史中提取特征。
- 點(diǎn)軌跡預(yù)測(cè):基于軌跡預(yù)測(cè)Transformer,預(yù)測(cè)視頻中點(diǎn)的軌跡,以輔助損失來(lái)訓(xùn)練策略。
- 行為克隆損失:通過(guò)最小化預(yù)測(cè)動(dòng)作與真實(shí)動(dòng)作之間的誤差來(lái)優(yōu)化策略,從而模仿人類視頻中的行為。
Gen2Act的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://homangab.github.io/gen2act/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2409.16283
Gen2Act的應(yīng)用場(chǎng)景
- 家庭自動(dòng)化:在家庭環(huán)境中,Gen2Act能夠控制家居設(shè)備,如開(kāi)關(guān)微波爐、操作咖啡機(jī)、整理物品等,助力家庭自動(dòng)化的實(shí)現(xiàn)。
- 工業(yè)自動(dòng)化:在制造業(yè)中,Gen2Act可以執(zhí)行復(fù)雜的裝配任務(wù),或在需要靈活性和適應(yīng)性的環(huán)境中替代或輔助人工操作。
- 服務(wù)行業(yè):在餐飲或零售服務(wù)中,Gen2Act可以指導(dǎo)機(jī)器人完成點(diǎn)單、上菜、整理貨架等任務(wù)。
- 醫(yī)療輔助:在醫(yī)療領(lǐng)域,Gen2Act有助于開(kāi)發(fā)執(zhí)行精細(xì)操作的機(jī)器人,如協(xié)助手術(shù)或遞送醫(yī)療用品。
- 災(zāi)難救援:在災(zāi)難救援現(xiàn)場(chǎng),Gen2Act能夠操控機(jī)器人在未知環(huán)境中進(jìn)行搜索和救援任務(wù)。
常見(jiàn)問(wèn)題
- Gen2Act的主要優(yōu)勢(shì)是什么? Gen2Act的主要優(yōu)勢(shì)在于其零樣本視頻生成能力、強(qiáng)大的泛化能力以及通過(guò)閉環(huán)策略動(dòng)態(tài)調(diào)整機(jī)器人操作的能力。
- Gen2Act能應(yīng)用于哪些行業(yè)? Gen2Act適用于家庭自動(dòng)化、工業(yè)自動(dòng)化、服務(wù)行業(yè)、醫(yī)療輔助以及災(zāi)難救援等多個(gè)領(lǐng)域。
- 使用Gen2Act需要多少數(shù)據(jù)? Gen2Act只需較少的機(jī)器人演示數(shù)據(jù),大幅降低了數(shù)據(jù)收集的需求。

粵公網(wǎng)安備 44011502001135號(hào)