NeurIPS Spotlight | 基于信息論,決策模型有了全新預(yù)訓(xùn)練范式統(tǒng)一框架
為離線元強化學(xué)習(xí)提供統(tǒng)一理論基礎(chǔ)和算法設(shè)計準(zhǔn)則。

原標(biāo)題:NeurIPS Spotlight | 基于信息論,決策模型有了全新預(yù)訓(xùn)練范式統(tǒng)一框架
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7426字
之江實驗室、香港中文大學(xué)等團(tuán)隊提出離線元強化學(xué)習(xí)新算法UNICORN
本文總結(jié)了機(jī)器之心AIxiv專欄報道的關(guān)于離線元強化學(xué)習(xí)(Offline Meta-RL)新算法UNICORN的研究成果。該算法由之江實驗室、香港中文大學(xué)、同濟(jì)大學(xué)等單位的研究團(tuán)隊共同提出,并被NeurIPS 2024接收為Spotlight文章。
1. 背景:離線元強化學(xué)習(xí)的挑戰(zhàn)
經(jīng)典強化學(xué)習(xí)依賴于智能體與環(huán)境的在線交互,但在高風(fēng)險場景(如自動駕駛、藥物發(fā)現(xiàn))中不可行。離線強化學(xué)習(xí)(Offline RL)利用歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),避免了在線交互的風(fēng)險,但其泛化能力有限。元強化學(xué)習(xí)(Meta-RL)則注重多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí),具有強大的泛化能力。結(jié)合兩者優(yōu)勢的“基于語境的離線元強化學(xué)習(xí)”(COMRL)應(yīng)運而生,其核心在于學(xué)習(xí)魯棒有效的任務(wù)表征,以應(yīng)對“語境偏移”問題——訓(xùn)練數(shù)據(jù)與測試任務(wù)分布差異巨大。
2. UNICORN:基于信息論的統(tǒng)一框架
現(xiàn)有COMRL方法主要依靠經(jīng)驗性改進(jìn)損失函數(shù),缺乏理論支撐。UNICORN算法的創(chuàng)新之處在于,它首次基于信息論,系統(tǒng)性地構(gòu)建了COMRL中任務(wù)表示學(xué)習(xí)的理論框架。該框架從數(shù)學(xué)定義、因果關(guān)系分解、中心定理三個層面,對任務(wù)表示學(xué)習(xí)進(jìn)行了嚴(yán)格的理論推導(dǎo)和分析。
具體而言:
- 數(shù)學(xué)定義:將任務(wù)表示學(xué)習(xí)定義為尋找數(shù)據(jù)相對于任務(wù)變量的充分統(tǒng)計量。
- 因果關(guān)系分解:將數(shù)據(jù)樣本的因果關(guān)系分解為主因果關(guān)系(與任務(wù)相關(guān))和次因果關(guān)系(與行為策略相關(guān)),并對應(yīng)到互信息的分解。
- 中心定理:證明了一個關(guān)于互信息的不等式,指出最優(yōu)優(yōu)化目標(biāo)應(yīng)該介于主因果關(guān)系和主次因果關(guān)系之和之間,并提出互信息 I(Z;M) 作為任務(wù)表示學(xué)習(xí)的金標(biāo)準(zhǔn)。
基于此理論框架,UNICORN提出了兩種算法實現(xiàn):有監(jiān)督UNICORN和自監(jiān)督UNICORN,分別將I(Z;M)的求解近似為分類問題和數(shù)據(jù)重建+度量學(xué)習(xí)。
3. 實驗結(jié)果:UNICORN的優(yōu)勢
實驗結(jié)果表明,UNICORN算法在多種機(jī)器人連續(xù)控制任務(wù)中表現(xiàn)出色:
- 在同分布和分布外測試集上均取得了優(yōu)異的性能,尤其在分布外測試集上顯著優(yōu)于現(xiàn)有方法。
- 在不同質(zhì)量的數(shù)據(jù)集上表現(xiàn)穩(wěn)定,達(dá)到了最先進(jìn)水平。
- 具有良好的模型架構(gòu)可遷移性,可作為即插即用模塊應(yīng)用于其他RL算法。
- 在分布外任務(wù)上實現(xiàn)了正向小樣本遷移,展現(xiàn)了強大的泛化能力。
4. 未來展望
UNICORN為離線元強化學(xué)習(xí)提供了統(tǒng)一的理論基礎(chǔ)和算法設(shè)計準(zhǔn)則,對決策大模型的離線多任務(wù)預(yù)訓(xùn)練和微調(diào)具有重要指導(dǎo)意義,有望推動藥物設(shè)計、精準(zhǔn)醫(yī)療等領(lǐng)域的AI發(fā)展。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號