Gen2Act

AI工具1年前 (2024)發(fā)布 AI工具集

Gen2Act是一種由谷歌、卡內(nèi)基梅隆大學(xué)和斯坦福大合開(kāi)發(fā)的機(jī)器人操作策略。它通過(guò)利用網(wǎng)絡(luò)視頻數(shù)據(jù)中的信息，生成與人類相似的執(zhí)行任務(wù)的視頻，從而引導(dǎo)機(jī)器人完成新的任務(wù)。該策略依托于海量的網(wǎng)絡(luò)視頻資源，規(guī)避了直接生成機(jī)器人視頻所帶來(lái)的復(fù)雜性。Gen2Act具備強(qiáng)大的泛化能力，能夠適應(yīng)未見(jiàn)過(guò)的物體和動(dòng)作，在實(shí)際應(yīng)用中顯著提升了任務(wù)執(zhí)行的成功率。

Gen2Act是什么

Gen2Act是由谷歌、卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)共同推出的一種機(jī)器人操作策略，基于預(yù)測(cè)網(wǎng)絡(luò)數(shù)據(jù)中的信息來(lái)生類視頻，并將視頻用在引導(dǎo)機(jī)器人執(zhí)行新任務(wù)。該策略利用大量可用的網(wǎng)絡(luò)視頻數(shù)據(jù)，避免了直接生成機(jī)器人視頻的復(fù)雜性。Gen2Act的核心在于零樣本的人類視頻生成，結(jié)合預(yù)訓(xùn)練的視頻生成模型和少量的機(jī)器人交互數(shù)據(jù)進(jìn)行策略訓(xùn)練。在真實(shí)世界的應(yīng)用中，Gen2Act展現(xiàn)出強(qiáng)大的泛化能力，能夠操作未曾見(jiàn)過(guò)的物體并執(zhí)行新動(dòng)作，相較于其他方法，其成功率顯著提高。此外，Gen2Act支持復(fù)雜任務(wù)的長(zhǎng)時(shí)間執(zhí)行，如連續(xù)完成“制作咖啡”等多步驟活動(dòng)。這一方法減少了對(duì)大規(guī)模機(jī)器人數(shù)據(jù)采集的需求，并通過(guò)閉環(huán)策略動(dòng)態(tài)調(diào)整，提高了操作的準(zhǔn)確性。

Gen2Act

Gen2Act的主要功能

零樣本視頻生成：Gen2Act可以直接利用預(yù)訓(xùn)練的視頻生成模型，根據(jù)語(yǔ)言描述的任務(wù)和場(chǎng)景圖像生類執(zhí)行任務(wù)的視頻，而無(wú)需針對(duì)特定任務(wù)進(jìn)行微調(diào)。
泛化到新任務(wù)：通過(guò)生成的人類視頻引導(dǎo)，Gen2Act使機(jī)器人能夠執(zhí)行在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過(guò)的新任務(wù)，包括操作未見(jiàn)過(guò)的物體和執(zhí)行新的動(dòng)作。
閉環(huán)策略執(zhí)行：結(jié)合生成的視頻和機(jī)器人的實(shí)時(shí)觀察，Gen2Act通過(guò)閉環(huán)策略動(dòng)態(tài)調(diào)整機(jī)器人的動(dòng)作，以適應(yīng)變化的場(chǎng)景，確保準(zhǔn)確執(zhí)行任務(wù)。
長(zhǎng)時(shí)任務(wù)處理：Gen2Act能夠完成單一任務(wù)，并基于任務(wù)序列的鏈接，執(zhí)行一系列復(fù)雜的長(zhǎng)時(shí)任務(wù)，如“制作咖啡”，涉及多個(gè)步驟的連續(xù)操作。
減少數(shù)據(jù)需求：Gen2Act只需較少的機(jī)器人演示數(shù)據(jù)，大幅降低了數(shù)據(jù)收集的成本和工作量。

Gen2Act的技術(shù)原理

人類視頻生成：基于預(yù)訓(xùn)練的視頻生成模型，利用語(yǔ)言描述的任務(wù)和場(chǎng)景的首幀圖像，實(shí)現(xiàn)零樣本的人類任務(wù)視頻生成。
視頻到動(dòng)作的翻譯：通過(guò)閉環(huán)策略，將生成的人類視頻轉(zhuǎn)化為機(jī)器人的動(dòng)作，策略利用視頻的視覺(jué)特征和點(diǎn)軌跡預(yù)測(cè)隱式編碼的信息。
視覺(jué)特征提取：使用ViT編碼器和Transformer編碼器從生成的視頻和機(jī)器人的觀察歷史中提取特征。
點(diǎn)軌跡預(yù)測(cè)：基于軌跡預(yù)測(cè)Transformer，預(yù)測(cè)視頻中點(diǎn)的軌跡，以輔助損失來(lái)訓(xùn)練策略。
行為克隆損失：通過(guò)最小化預(yù)測(cè)動(dòng)作與真實(shí)動(dòng)作之間的誤差來(lái)優(yōu)化策略，從而模仿人類視頻中的行為。

Gen2Act的項(xiàng)目地址

項(xiàng)目官網(wǎng)：https://homangab.github.io/gen2act/
arXiv技術(shù)論文：https://arxiv.org/pdf/2409.16283

Gen2Act的應(yīng)用場(chǎng)景

家庭自動(dòng)化：在家庭環(huán)境中，Gen2Act能夠控制家居設(shè)備，如開(kāi)關(guān)微波爐、操作咖啡機(jī)、整理物品等，助力家庭自動(dòng)化的實(shí)現(xiàn)。
工業(yè)自動(dòng)化：在制造業(yè)中，Gen2Act可以執(zhí)行復(fù)雜的裝配任務(wù)，或在需要靈活性和適應(yīng)性的環(huán)境中替代或輔助人工操作。
服務(wù)行業(yè)：在餐飲或零售服務(wù)中，Gen2Act可以指導(dǎo)機(jī)器人完成點(diǎn)單、上菜、整理貨架等任務(wù)。
醫(yī)療輔助：在醫(yī)療領(lǐng)域，Gen2Act有助于開(kāi)發(fā)執(zhí)行精細(xì)操作的機(jī)器人，如協(xié)助手術(shù)或遞送醫(yī)療用品。
災(zāi)難救援：在災(zāi)難救援現(xiàn)場(chǎng)，Gen2Act能夠操控機(jī)器人在未知環(huán)境中進(jìn)行搜索和救援任務(wù)。

常見(jiàn)問(wèn)題

Gen2Act的主要優(yōu)勢(shì)是什么？ Gen2Act的主要優(yōu)勢(shì)在于其零樣本視頻生成能力、強(qiáng)大的泛化能力以及通過(guò)閉環(huán)策略動(dòng)態(tài)調(diào)整機(jī)器人操作的能力。
Gen2Act能應(yīng)用于哪些行業(yè)？ Gen2Act適用于家庭自動(dòng)化、工業(yè)自動(dòng)化、服務(wù)行業(yè)、醫(yī)療輔助以及災(zāi)難救援等多個(gè)領(lǐng)域。
使用Gen2Act需要多少數(shù)據(jù)？ Gen2Act只需較少的機(jī)器人演示數(shù)據(jù)，大幅降低了數(shù)據(jù)收集的需求。

閱讀原文

# AI工具 # AI項(xiàng)目和框架 # 個(gè)性化運(yùn)動(dòng)建議 # 實(shí)時(shí)健康提醒 # 數(shù)據(jù)分析與報(bào)告 # 智能健康監(jiān)測(cè)# 用戶行為跟蹤

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Gen2Act

Gen2Act是什么

Gen2Act的主要功能

Gen2Act的技術(shù)原理

Gen2Act的項(xiàng)目地址

Gen2Act的應(yīng)用場(chǎng)景

常見(jiàn)問(wèn)題

Socratic

pixble

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？