AIGC動態歡迎閱讀
原標題:率先突破大規模多類數據損壞問題!中科大離線強化學習新方式入選NeurIPS 2024
關鍵字:數據,離線,動作,函數,不確定性
文章來源:量子位
內容字數:0字
內容摘要:
中科大楊睿 投稿量子位 | 公眾號 QbitAI機器人控制和自動駕駛的離線數據損壞問題有解了!
中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。
論文發表在CCF-A類人工智能頂級會議NeurIPS 2024。
現實世界的離線數據集(如機器人控制、自動駕駛等)常常因傳感器故障或惡意攻擊而受到數據損壞(如數據帶有噪聲或對抗性攻擊)的影響。
盡管現有離線強化學習(offline RL)方法在魯棒性方面已取得了進展,但它們仍難以處理因離線數據的各類元素(即狀態、動作、獎勵和轉移動態)均部分損壞所引入的高不確定性。
作者針對離線數據的各類元素均有受損這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法TRACER。
在面臨各類數據損壞時,該方法于所有實驗中均實現了最優,相對于現有的SOTA方法提升了高達+21.1%的決策性能,并在24組僅有單類數據損壞的實驗中仍實現了16組的最優性能。
TRACER主要具有以下三點優勢:
TRACER首次將貝葉斯推斷引入到抗損壞的離線強化學習(corruption-robust offline RL)
原文鏈接:率先突破大規模多類數據損壞問題!中科大離線強化學習新方式入選NeurIPS 2024
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...