產品名稱:RDT
產品簡介:RDT(Robotics Diffusion Transformer)是清華大學AI研究院TSAIL團隊推出的全球最大的雙臂機器人操作任務擴散基礎模型。RDT具備十億參數量,能在無需人類操控的情況下,自主完成復雜任務,如調酒和遛狗。
詳細介紹:
RDT是什么
RDT(Robotics Diffusion Transformer)是清華大學AI研究院TSAIL團隊推出的全球最大的雙臂機器人操作任務擴散基礎模型。RDT具備十億參數量,能在無需人類操控的情況下,自主完成復雜任務,如調酒和遛狗。RDT基于模仿學習人類動作,展現出強大的泛化能力和操作精度,能處理未見過的物體和場景。清華團隊已將RDT的代碼、模型和訓練數據集開源,推動機器人技術的發(fā)展和應用。
RDT的主要功能
- 雙臂協調操作:指揮機器人的雙臂協同工作,完成復雜的物理任務,例如調酒和遛狗。
- 自主任務執(zhí)行:無需人類直接操控,自主完成之前未見過的全新任務。
- 高精確度操作:RDT能進行精確的操作,如控制機器狗走直線,需要極高的操作精度。
- 語言指令理解:理解并遵循人類的自然語言指令,執(zhí)行相應的動作。
- 少樣本學習:RDT具有強大的學習能力,只需少量演示能學會新技能。
RDT的技術原理
- 多模態(tài)輸入編碼:RDT結合語言、視覺和動作三種模態(tài),基于不同的編碼方式處理輸入。
- 動作編碼:具有傅里葉特征的多層感知機(MLP)。
- 圖片編碼:基于經過對齊的SigLIP。
- 語言編碼:使用T5-XXL語言模型。
- Transformer骨干網絡:RDT采用Transformer作為骨干網絡,針對機器人操作進行關鍵修改。
- QKNorm和RMSNorm:緩解傳感器失靈導致的極端值問題。
- 非線性MLP解碼器:增強對非線性動力學的近似能力。
- 交替注入:平衡圖像和文本模態(tài),防止信息淹沒。
- 預訓練與微調:RDT在大規(guī)模的具身數據集上進行預訓練,獲得泛化性,基于高質量的雙臂微調數據集進行微調,增強雙臂操作能力。
- 統(tǒng)一動作空間:構建統(tǒng)一的動作空間統(tǒng)一不同機器人數據的格式,讓模型從不同數據中學習共享的物理規(guī)律。
- 泛化性和操作精度測試:設計挑戰(zhàn)性任務,評估RDT的泛化能力和操作精度,確保在實際應用中的有效性。
RDT的項目地址
- 項目官網:rdt-robotics.github.io/rdt-robotics
- GitHub倉庫:https://github.com/thu-ml/RoboticsDiffusionTransformer
- HuggingFace模型庫:https://huggingface.co/robotics-diffusion-transformer/rdt-1b
- arXiv技術論文:https://arxiv.org/pdf/2410.07864
RDT的應用場景
- 餐飲服務:用在自動化調酒、烹飪和上菜等任務,提高餐飲服務業(yè)的效率和創(chuàng)新性。
- 家庭助理:在家庭環(huán)境中,執(zhí)行清潔、整理、洗衣等家務任務,還能照顧寵物,如遛狗。
- 醫(yī)療輔助:輔助醫(yī)護人員進行一些常規(guī)的護理工作,比如分發(fā)藥物、搬運醫(yī)療設備等。
- 工業(yè)自動化:在制造業(yè)中,用在精密的裝配工作、質量檢測及物料搬運等任務。
- 災難救援:在災難現場執(zhí)行搜索和救援任務,尤其是在人類難以到達或者危險的環(huán)境中。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...