性能大漲20%！中科大「狀態(tài)序列頻域預(yù)測(cè)」方法：表征學(xué)習(xí)樣本效率max｜NeurIPS 2023 Spotlight

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：性能大漲20%！中科大「狀態(tài)序列頻域預(yù)測(cè)」方法：表征學(xué)習(xí)樣本效率max｜NeurIPS 2023 Spotlight
關(guān)鍵字：狀態(tài),序列,表征,函數(shù),算法
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：14237字

內(nèi)容摘要：

新智元報(bào)道編輯：LRS 好困
【新智元導(dǎo)讀】SPF算法是一種基于狀態(tài)序列頻域預(yù)測(cè)的表征學(xué)習(xí)方法，利用狀態(tài)序列的頻域分布來(lái)顯式提取狀態(tài)序列數(shù)據(jù)中的趨勢(shì)性和規(guī)律性信息，從而輔助表征高效地提取到長(zhǎng)期未來(lái)信息。強(qiáng)化學(xué)習(xí)算法（Reinforcement Learning, RL）的訓(xùn)練過(guò)程往往需要大量與環(huán)境交互的樣本數(shù)據(jù)作為支撐。然而，現(xiàn)實(shí)世界中收集大量的交互樣本通常成本高昂或者難以保證樣本采集過(guò)程的安全性，例如無(wú)人機(jī)空戰(zhàn)訓(xùn)練和自動(dòng)駕駛訓(xùn)練。
為了提升強(qiáng)化學(xué)習(xí)算法在訓(xùn)練過(guò)程中的樣本效率，一些研究者們借助于表征學(xué)習(xí)（representation learning），設(shè)計(jì)了預(yù)測(cè)未來(lái)狀態(tài)信號(hào)的輔助任務(wù)，使得表征能從原始的環(huán)境狀態(tài)中編碼出與未來(lái)決策相關(guān)的特征。
基于這個(gè)思路，該工作設(shè)計(jì)了一種預(yù)測(cè)未來(lái)多步的狀態(tài)序列頻域分布的輔助任務(wù)，以捕獲更長(zhǎng)遠(yuǎn)的未來(lái)決策特征，進(jìn)而提升算法的樣本效率。
該工作標(biāo)題為State Sequences Prediction via Fourier Transform for Representation Learning，發(fā)表于NeurIPS 2023，并被接收為Spotli

原文鏈接：性能大漲20%！中科大「狀態(tài)序列頻域預(yù)測(cè)」方法：表征學(xué)習(xí)樣本效率max｜NeurIPS 2023 Spotlight

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文