軌跡跟蹤誤差直降50%,清華汪玉團隊強化學習策略秘籍搞定無人機
讓無人機飛得更加平穩(wěn)!
原標題:軌跡跟蹤誤差直降50%,清華汪玉團隊強化學習策略秘籍搞定無人機
文章來源:機器之心
內(nèi)容字數(shù):6530字
清華大學團隊SimpleFlight:解決強化學習無人機控制Sim2Real難題
機器之心AIxiv專欄報道了清華大學高能效計算實驗室的一項突破性研究成果:SimpleFlight框架。該框架解決了強化學習(RL)策略在無人機控制中難以從仿真環(huán)境零樣本泛化到真實世界的難題,在軌跡跟蹤誤差上比現(xiàn)有RL基線方法降低了50%以上。
1. 背景與挑戰(zhàn)
傳統(tǒng)的無人機控制方法(如PID控制器和MPC)在靈活性方面存在局限。強化學習因其直接將觀測映射為動作的能力,展現(xiàn)出巨大的潛力,但“Sim2Real”鴻溝一直是其應用的瓶頸。如何訓練出無需額外微調(diào)即可在真實環(huán)境中部署的魯棒RL策略,是研究者們面臨的挑戰(zhàn)。
2. SimpleFlight框架
清華大學團隊提出的SimpleFlight框架,集成五大技術(shù),基于PPO算法,有效解決了上述難題。該框架在開源微型四旋翼無人機Crazyflie 2.1和團隊自制的250mm軸距四旋翼無人機上進行了測試,取得了顯著成果。
3. 實驗結(jié)果
實驗使用了平滑軌跡(八字形、隨機多項式)和不可行軌跡(五角星、隨機之字形)兩種類型的基準軌跡。SimpleFlight在所有基準軌跡上均取得最佳性能,成功率100%,軌跡跟蹤誤差降低了50%以上,并且無需任何微調(diào)。
4. SimpleFlight的五大核心技術(shù)
SimpleFlight的成功歸功于以下五大關(guān)鍵因素:
- 輸入空間設計:采用相對位姿誤差、速度和旋轉(zhuǎn)矩陣作為策略網(wǎng)絡輸入,并使用旋轉(zhuǎn)矩陣而非四元數(shù)。
- 獎勵設計:將時間向量添加到價值網(wǎng)絡輸入,并使用連續(xù)動作差異的正則化作為平滑度獎勵。
- 訓練技術(shù):使用系統(tǒng)辨識校準關(guān)鍵動力學參數(shù),謹慎選擇性地應用域隨機化,并使用較大的batch size。
- 高效仿真平臺:基于NVIDIA Isaac Sim搭建的OmniDrones仿真平臺,可實現(xiàn)每秒超過10^5步的仿真速度。
- CTBR指令:使用collective thrust and body rates (CTBR)作為策略輸出動作。
5. 結(jié)論與意義
SimpleFlight并非依賴于新的算法或復雜的架構(gòu),其意義在于提供了一套關(guān)鍵訓練因素的集合,可輕松集成到現(xiàn)有的四旋翼無人機控制方法中,幫助研究者和開發(fā)者進一步優(yōu)化控制性能。該研究為強化學習在無人機控制領(lǐng)域的實際應用提供了重要的參考。
論文鏈接:https://arxiv.org/abs/2412.11764
開源代碼及模型項目網(wǎng)站:https://sites.google.com/view/simpleflight
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺