率先突破大規(guī)模多類數(shù)據(jù)損壞問題!中科大離線強化學(xué)習(xí)新方式入選NeurIPS 2024
AIGC動態(tài)歡迎閱讀
原標題:率先突破大規(guī)模多類數(shù)據(jù)損壞問題!中科大離線強化學(xué)習(xí)新方式入選NeurIPS 2024
關(guān)鍵字:數(shù)據(jù),離線,動作,函數(shù),不確定性
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
中科大楊睿 投稿量子位 | 公眾號 QbitAI機器人控制和自動駕駛的離線數(shù)據(jù)損壞問題有解了!
中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。
論文發(fā)表在CCF-A類人工智能頂級會議NeurIPS 2024。
現(xiàn)實世界的離線數(shù)據(jù)集(如機器人控制、自動駕駛等)常常因傳感器故障或惡意攻擊而受到數(shù)據(jù)損壞(如數(shù)據(jù)帶有噪聲或?qū)剐怨簦┑挠绊憽?br />盡管現(xiàn)有離線強化學(xué)習(xí)(offline RL)方法在魯棒性方面已取得了進展,但它們?nèi)噪y以處理因離線數(shù)據(jù)的各類元素(即狀態(tài)、動作、獎勵和轉(zhuǎn)移動態(tài))均部分損壞所引入的高不確定性。
作者針對離線數(shù)據(jù)的各類元素均有受損這一復(fù)雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法TRACER。
在面臨各類數(shù)據(jù)損壞時,該方法于所有實驗中均實現(xiàn)了最優(yōu),相對于現(xiàn)有的SOTA方法提升了高達+21.1%的決策性能,并在24組僅有單類數(shù)據(jù)損壞的實驗中仍實現(xiàn)了16組的最優(yōu)性能。
TRACER主要具有以下三點優(yōu)勢:
TRACER首次將貝葉斯推斷引入到抗損壞的離線強化學(xué)習(xí)(corruption-robust offline RL)
原文鏈接:率先突破大規(guī)模多類數(shù)據(jù)損壞問題!中科大離線強化學(xué)習(xí)新方式入選NeurIPS 2024
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: