如何解決智能體探索和利用行為之間的平衡問(wèn)題?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:如何解決智能體探索和利用行為之間的平衡問(wèn)題?
關(guān)鍵字:狀態(tài),結(jié)構(gòu),動(dòng)作,作者,智能
文章來(lái)源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者|曾祥華 北京航空航天大學(xué) 博士生
本文介紹來(lái)自北京航空航天大學(xué)彭浩老師團(tuán)隊(duì)發(fā)表在 NeurlPS 2024 上的一篇文章“Effective Exploration Based on the Structural Information Principles”。為了解決當(dāng)前基于傳統(tǒng)信息論的探索方法由于忽略狀態(tài) – 動(dòng)作空間內(nèi)在結(jié)構(gòu)而導(dǎo)致效率低下的問(wèn)題,作者提出了一種基于結(jié)構(gòu)信息原理的探索框架,即 SI2E。SI2E 通過(guò)定義結(jié)構(gòu)互信息,提出一種新的狀態(tài)動(dòng)作表征原則,捕捉狀態(tài) – 動(dòng)作對(duì)之間的動(dòng)態(tài)關(guān)系,構(gòu)建最優(yōu)編碼樹(shù)。通過(guò)分析狀態(tài) – 動(dòng)作對(duì)之間的價(jià)值差異,定義策略條件結(jié)構(gòu)熵,構(gòu)造內(nèi)在獎(jiǎng)勵(lì)機(jī)制,實(shí)現(xiàn)對(duì)于狀態(tài) – 動(dòng)作空間更為有效的覆蓋。在 MiniGrid、MetaWorld 和 DeepMind Control Suite 等測(cè)試環(huán)境中,SI2E 在最終性能與采樣效率等方面的表現(xiàn)遙遙領(lǐng)先,最大提升幅度分別達(dá)到了 37.63% 和 60.25%。
論文名稱:Effective Exploration Based on the Structural Information Princ
原文鏈接:如何解決智能體探索和利用行為之間的平衡問(wèn)題?
聯(lián)系作者
文章來(lái)源:AI前線
作者微信:
作者簡(jiǎn)介: