突破極限:清華TSAIL團(tuán)隊(duì)發(fā)布全新12億參數(shù)雙臂機(jī)器人操作擴(kuò)散基座模型RDT!
清華大學(xué)TSAIL團(tuán)隊(duì)博士生劉松銘主講
原標(biāo)題:清華TSAIL團(tuán)隊(duì)開源12億參數(shù)的雙臂機(jī)器人操作擴(kuò)散基座模型RDT | 一作劉松銘博士主講預(yù)告
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):2052字
雙臂機(jī)器人操作與擴(kuò)散基座模型的突破
雙臂機(jī)器人在機(jī)器人技術(shù)中扮演著重要角色,但由于其固有的復(fù)雜性和訓(xùn)練數(shù)據(jù)的稀缺,開發(fā)高效的基座模型一直是一個巨大的挑戰(zhàn)。傳統(tǒng)的操作策略往往局限于特定任務(wù)或小規(guī)模模型,使得其應(yīng)用范圍受到限制。為此,清華大學(xué)人工智能研究院 TSAIL 團(tuán)隊(duì)提出了一種新的解決方案——Robotics Diffusion Transformer(RDT),這是目前最大的用于機(jī)器人操作的擴(kuò)散基座模型,參數(shù)量達(dá)到1.2B,并已實(shí)現(xiàn)開源。
1. 技術(shù)挑戰(zhàn)與解決方案
雙臂機(jī)器人操作面臨多種技術(shù)挑戰(zhàn),包括協(xié)調(diào)性、靈活性和對復(fù)雜任務(wù)的適應(yīng)能力。RDT模型通過采用擴(kuò)散模型的方式,有效地表示多峰的人類動作分布。此外,它利用可擴(kuò)展的Transformer架構(gòu),能夠處理異構(gòu)的多模態(tài)輸入,捕捉機(jī)器人數(shù)據(jù)中的非線性和高頻特性,進(jìn)而提升機(jī)器人的操作能力。
2. 物理可解釋的統(tǒng)一動作空間
為了解決數(shù)據(jù)稀缺的問題,RDT模型引入了一種物理可解釋的統(tǒng)一動作空間,這一空間能夠統(tǒng)一不同機(jī)器人的動作表示,同時(shí)保留原始動作的物理含義。這一設(shè)計(jì)不僅促進(jìn)了可遷移的物理知識的學(xué)習(xí),也增強(qiáng)了機(jī)器人在多樣化任務(wù)中的靈活性和適應(yīng)能力。
3. 微調(diào)與任務(wù)完成效果分析
RDT模型在超過6000條軌跡的雙臂數(shù)據(jù)集上進(jìn)行了微調(diào),顯著提升了其在復(fù)雜任務(wù)中的表現(xiàn)。雙臂機(jī)器人ALOHA在RDT模型的加持下,成功挑戰(zhàn)了7項(xiàng)高難度任務(wù),平均成功率比當(dāng)前最好的模型高出56%。這一成果表明,RDT模型在控制方面已經(jīng)接近人類的水平,展現(xiàn)了其強(qiáng)大的應(yīng)用潛力。
4. 總結(jié)與展望
RDT模型的推出為雙臂機(jī)器人操作領(lǐng)域帶來了新的可能性,其在實(shí)現(xiàn)自作能力和復(fù)雜任務(wù)處理上取得的突破,標(biāo)志著機(jī)器人技術(shù)向更高層次發(fā)展的重要一步。未來,隨著技術(shù)的不斷進(jìn)步,雙臂機(jī)器人將在更多實(shí)際應(yīng)用中發(fā)揮作用,推動智能機(jī)器人技術(shù)的進(jìn)一步發(fā)展。
該模型的詳細(xì)研究成果已發(fā)表于論文《RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation》,感興趣的朋友可以通過以下鏈接了解更多信息:論文鏈接,以及項(xiàng)目地址:項(xiàng)目地址。對于想?yún)⑴c相關(guān)討論的朋友,歡迎添加小助手進(jìn)行報(bào)名。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。