讓無人機飛得更加平穩!
清華大學團隊SimpleFlight:解決強化學習無人機控制Sim2Real難題
機器之心AIxiv專欄報道了清華大學高能效計算實驗室的一項突破性研究成果:SimpleFlight框架。該框架解決了強化學習(RL)策略在無人機控制中難以從仿真環境零樣本泛化到真實世界的難題,在軌跡跟蹤誤差上比現有RL基線方法降低了50%以上。
1. 背景與挑戰
傳統的無人機控制方法(如PID控制器和MPC)在靈活性方面存在局限。強化學習因其直接將觀測映射為動作的能力,展現出巨大的潛力,但“Sim2Real”鴻溝一直是其應用的瓶頸。如何訓練出無需額外微調即可在真實環境中部署的魯棒RL策略,是研究者們面臨的挑戰。
2. SimpleFlight框架
清華大學團隊提出的SimpleFlight框架,集成五大技術,基于PPO算法,有效解決了上述難題。該框架在開源微型四旋翼無人機Crazyflie 2.1和團隊自制的250mm軸距四旋翼無人機上進行了測試,取得了顯著成果。
3. 實驗結果
實驗使用了平滑軌跡(八字形、隨機多項式)和不可行軌跡(五角星、隨機之字形)兩種類型的基準軌跡。SimpleFlight在所有基準軌跡上均取得最佳性能,成功率100%,軌跡跟蹤誤差降低了50%以上,并且無需任何微調。
4. SimpleFlight的五大核心技術
SimpleFlight的成功歸功于以下五大關鍵因素:
- 輸入空間設計:采用相對位姿誤差、速度和旋轉矩陣作為策略網絡輸入,并使用旋轉矩陣而非四元數。
- 獎勵設計:將時間向量添加到價值網絡輸入,并使用連續動作差異的正則化作為平滑度獎勵。
- 訓練技術:使用系統辨識校準關鍵動力學參數,謹慎選擇性地應用域隨機化,并使用較大的batch size。
- 高效仿真平臺:基于NVIDIA Isaac Sim搭建的OmniDrones仿真平臺,可實現每秒超過10^5步的仿真速度。
- CTBR指令:使用collective thrust and body rates (CTBR)作為策略輸出動作。
5. 結論與意義
SimpleFlight并非依賴于新的算法或復雜的架構,其意義在于提供了一套關鍵訓練因素的集合,可輕松集成到現有的四旋翼無人機控制方法中,幫助研究者和開發者進一步優化控制性能。該研究為強化學習在無人機控制領域的實際應用提供了重要的參考。
論文鏈接:https://arxiv.org/abs/2412.11764
開源代碼及模型項目網站:https://sites.google.com/view/simpleflight
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...