性能大漲20%!中科大「狀態(tài)序列頻域預(yù)測(cè)」方法:表征學(xué)習(xí)樣本效率max|NeurIPS 2023 Spotlight
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:性能大漲20%!中科大「狀態(tài)序列頻域預(yù)測(cè)」方法:表征學(xué)習(xí)樣本效率max|NeurIPS 2023 Spotlight
關(guān)鍵字:狀態(tài),序列,表征,函數(shù),算法
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):14237字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS 好困
【新智元導(dǎo)讀】SPF算法是一種基于狀態(tài)序列頻域預(yù)測(cè)的表征學(xué)習(xí)方法,利用狀態(tài)序列的頻域分布來(lái)顯式提取狀態(tài)序列數(shù)據(jù)中的趨勢(shì)性和規(guī)律性信息,從而輔助表征高效地提取到長(zhǎng)期未來(lái)信息。強(qiáng)化學(xué)習(xí)算法(Reinforcement Learning, RL)的訓(xùn)練過(guò)程往往需要大量與環(huán)境交互的樣本數(shù)據(jù)作為支撐。然而,現(xiàn)實(shí)世界中收集大量的交互樣本通常成本高昂或者難以保證樣本采集過(guò)程的安全性,例如無(wú)人機(jī)空戰(zhàn)訓(xùn)練和自動(dòng)駕駛訓(xùn)練。
為了提升強(qiáng)化學(xué)習(xí)算法在訓(xùn)練過(guò)程中的樣本效率,一些研究者們借助于表征學(xué)習(xí)(representation learning),設(shè)計(jì)了預(yù)測(cè)未來(lái)狀態(tài)信號(hào)的輔助任務(wù),使得表征能從原始的環(huán)境狀態(tài)中編碼出與未來(lái)決策相關(guān)的特征。
基于這個(gè)思路,該工作設(shè)計(jì)了一種預(yù)測(cè)未來(lái)多步的狀態(tài)序列頻域分布的輔助任務(wù),以捕獲更長(zhǎng)遠(yuǎn)的未來(lái)決策特征,進(jìn)而提升算法的樣本效率。
該工作標(biāo)題為State Sequences Prediction via Fourier Transform for Representation Learning,發(fā)表于NeurIPS 2023,并被接收為Spotli
原文鏈接:性能大漲20%!中科大「狀態(tài)序列頻域預(yù)測(cè)」方法:表征學(xué)習(xí)樣本效率max|NeurIPS 2023 Spotlight
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。