率先解決多類數(shù)據(jù)同時(shí)受損,中科大MIRA團(tuán)隊(duì)TRACER入選NeurIPS 2024:強(qiáng)魯棒性的離線變分貝葉斯強(qiáng)化學(xué)習(xí)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:率先解決多類數(shù)據(jù)同時(shí)受損,中科大MIRA團(tuán)隊(duì)TRACER入選NeurIPS 2024:強(qiáng)魯棒性的離線變分貝葉斯強(qiáng)化學(xué)習(xí)
關(guān)鍵字:數(shù)據(jù),離線,不確定性,元素,動(dòng)作
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本論文作者楊睿是中國科學(xué)技術(shù)大學(xué) 2019 級碩博連讀生,師從王杰教授、李斌教授,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、自動(dòng)駕駛等。他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發(fā)表論文兩篇,曾獲滴滴精英實(shí)習(xí)生(16/1000+)。
近日,中科大王杰教授團(tuán)隊(duì) (MIRA Lab) 針對離線強(qiáng)化學(xué)習(xí)數(shù)據(jù)集存在多類數(shù)據(jù)損壞這一復(fù)雜的實(shí)際問題,提出了一種魯棒的變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性,為機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域的魯棒學(xué)習(xí)奠定了重要基礎(chǔ)。論文發(fā)表在 CCF-A 類人工智能頂級會議 Neural Information Processing Systems(NeurIPS 2024)。論文地址:https://arxiv.org/abs/2
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: