率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024

AIGC動態歡迎閱讀

原標題：率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024
關鍵字：數據,離線,動作,函數,不確定性
文章來源：量子位
內容字數：0字

內容摘要：

中科大楊睿投稿量子位 | 公眾號 QbitAI機器人控制和自動駕駛的離線數據損壞問題有解了！
中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性。
論文發表在CCF-A類人工智能頂級會議NeurIPS 2024。
現實世界的離線數據集（如機器人控制、自動駕駛等）常常因傳感器故障或惡意攻擊而受到數據損壞（如數據帶有噪聲或對抗性攻擊）的影響。
盡管現有離線強化學習（offline RL）方法在魯棒性方面已取得了進展，但它們仍難以處理因離線數據的各類元素（即狀態、動作、獎勵和轉移動態）均部分損壞所引入的高不確定性。
作者針對離線數據的各類元素均有受損這一復雜的實際問題，提出了一種魯棒的變分貝葉斯推斷方法TRACER。
在面臨各類數據損壞時，該方法于所有實驗中均實現了最優，相對于現有的SOTA方法提升了高達+21.1%的決策性能，并在24組僅有單類數據損壞的實驗中仍實現了16組的最優性能。
TRACER主要具有以下三點優勢：
TRACER首次將貝葉斯推斷引入到抗損壞的離線強化學習（corruption-robust offline RL）

原文鏈接：率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024

聯系作者

文章來源：量子位
作者微信：
作者簡介：

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024

AIGC動態歡迎閱讀

內容摘要：

聯系作者

炒作？真事？“中國學者使用量子計算機破解加密算法”，最新觀點都在這里

大模型二次開發技術選型思路

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024

AIGC動態歡迎閱讀

內容摘要：

聯系作者

炒作？真事？“中國學者使用量子計算機破解加密算法”，最新觀點都在這里

大模型二次開發技術選型思路

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024