如何解決智能體探索和利用行為之間的平衡問題?

AIGC動態(tài)歡迎閱讀
原標(biāo)題:如何解決智能體探索和利用行為之間的平衡問題?
關(guān)鍵字:狀態(tài),結(jié)構(gòu),動作,作者,智能
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者|曾祥華 北京航空航天大學(xué) 博士生
本文介紹來自北京航空航天大學(xué)彭浩老師團隊發(fā)表在 NeurlPS 2024 上的一篇文章“Effective Exploration Based on the Structural Information Principles”。為了解決當(dāng)前基于傳統(tǒng)信息論的探索方法由于忽略狀態(tài) – 動作空間內(nèi)在結(jié)構(gòu)而導(dǎo)致效率低下的問題,作者提出了一種基于結(jié)構(gòu)信息原理的探索框架,即 SI2E。SI2E 通過定義結(jié)構(gòu)互信息,提出一種新的狀態(tài)動作表征原則,捕捉狀態(tài) – 動作對之間的動態(tài)關(guān)系,構(gòu)建最優(yōu)編碼樹。通過分析狀態(tài) – 動作對之間的價值差異,定義策略條件結(jié)構(gòu)熵,構(gòu)造內(nèi)在獎勵機制,實現(xiàn)對于狀態(tài) – 動作空間更為有效的覆蓋。在 MiniGrid、MetaWorld 和 DeepMind Control Suite 等測試環(huán)境中,SI2E 在最終性能與采樣效率等方面的表現(xiàn)遙遙領(lǐng)先,最大提升幅度分別達到了 37.63% 和 60.25%。
論文名稱:Effective Exploration Based on the Structural Information Princ
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號