軌跡跟蹤誤差直降50％，清華汪玉團隊強化學習策略秘籍搞定無人機

讓無人機飛得更加平穩(wěn)！

原標題：軌跡跟蹤誤差直降50％，清華汪玉團隊強化學習策略秘籍搞定無人機
文章來源：機器之心
內(nèi)容字數(shù)：6530字

清華大學團隊SimpleFlight：解決強化學習無人機控制Sim2Real難題

機器之心AIxiv專欄報道了清華大學高能效計算實驗室的一項突破性研究成果：SimpleFlight框架。該框架解決了強化學習（RL）策略在無人機控制中難以從仿真環(huán)境零樣本泛化到真實世界的難題，在軌跡跟蹤誤差上比現(xiàn)有RL基線方法降低了50%以上。

1. 背景與挑戰(zhàn)

傳統(tǒng)的無人機控制方法（如PID控制器和MPC）在靈活性方面存在局限。強化學習因其直接將觀測映射為動作的能力，展現(xiàn)出巨大的潛力，但“Sim2Real”鴻溝一直是其應用的瓶頸。如何訓練出無需額外微調(diào)即可在真實環(huán)境中部署的魯棒RL策略，是研究者們面臨的挑戰(zhàn)。

2. SimpleFlight框架

清華大學團隊提出的SimpleFlight框架，集成五大技術(shù)，基于PPO算法，有效解決了上述難題。該框架在開源微型四旋翼無人機Crazyflie 2.1和團隊自制的250mm軸距四旋翼無人機上進行了測試，取得了顯著成果。

3. 實驗結(jié)果

實驗使用了平滑軌跡（八字形、隨機多項式）和不可行軌跡（五角星、隨機之字形）兩種類型的基準軌跡。SimpleFlight在所有基準軌跡上均取得最佳性能，成功率100%，軌跡跟蹤誤差降低了50%以上，并且無需任何微調(diào)。

4. SimpleFlight的五大核心技術(shù)

SimpleFlight的成功歸功于以下五大關(guān)鍵因素：

輸入空間設計：采用相對位姿誤差、速度和旋轉(zhuǎn)矩陣作為策略網(wǎng)絡輸入，并使用旋轉(zhuǎn)矩陣而非四元數(shù)。
獎勵設計：將時間向量添加到價值網(wǎng)絡輸入，并使用連續(xù)動作差異的正則化作為平滑度獎勵。
訓練技術(shù)：使用系統(tǒng)辨識校準關(guān)鍵動力學參數(shù)，謹慎選擇性地應用域隨機化，并使用較大的batch size。
高效仿真平臺：基于NVIDIA Isaac Sim搭建的OmniDrones仿真平臺，可實現(xiàn)每秒超過10^5步的仿真速度。
CTBR指令：使用collective thrust and body rates (CTBR)作為策略輸出動作。

5. 結(jié)論與意義

SimpleFlight并非依賴于新的算法或復雜的架構(gòu)，其意義在于提供了一套關(guān)鍵訓練因素的集合，可輕松集成到現(xiàn)有的四旋翼無人機控制方法中，幫助研究者和開發(fā)者進一步優(yōu)化控制性能。該研究為強化學習在無人機控制領(lǐng)域的實際應用提供了重要的參考。

論文鏈接：https://arxiv.org/abs/2412.11764

開源代碼及模型項目網(wǎng)站：https://sites.google.com/view/simpleflight