突破界限:智能體如何在未知人類設(shè)計(jì)環(huán)境中實(shí)現(xiàn)零樣本學(xué)習(xí)的性進(jìn)展
能在2D物理環(huán)境中執(zhí)行多樣化任務(wù)了
原標(biāo)題:智能體零樣本解決未見過人類設(shè)計(jì)環(huán)境!全靠這個(gè)開放式物理RL環(huán)境空間
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5768字
1. 研究背景與目標(biāo)
在機(jī)器學(xué)習(xí)領(lǐng)域,開發(fā)能夠在未見過領(lǐng)域表現(xiàn)出色的通用智能體一直是長(zhǎng)期目標(biāo)之一。牛津大學(xué)的研究者們提出了Kinetix框架,旨在通過開放式物理控制任務(wù)訓(xùn)練通用智能體,推動(dòng)其在2D物理環(huán)境中的應(yīng)用。
2. Kinetix框架的特點(diǎn)
Kinetix框架覆蓋范圍廣泛,可以表征多種任務(wù),包括機(jī)器人抓取、經(jīng)典RL環(huán)境(如Cartpole、Acrobot)、電子游戲等。為了支持Kinetix,研究者們開發(fā)了基于JAX的物理引擎Jax2D,能夠高效模擬數(shù)十億次環(huán)境交互。通過隨機(jī)采樣Kinetix環(huán)境,幾乎可以無限生成多樣化的訓(xùn)練任務(wù)。
3. 動(dòng)作與觀察空間
Kinetix支持多離散和連續(xù)動(dòng)作空間,并使用符號(hào)觀察表示每個(gè)實(shí)體的物理屬性。該觀察空間使環(huán)境完全可觀察,允許智能體在沒有記憶的情況下進(jìn)行策略學(xué)習(xí),并且支持基于像素的觀察選項(xiàng)。
4. 獎(jiǎng)勵(lì)機(jī)制與環(huán)境生成
研究中選擇了簡(jiǎn)單而表達(dá)力強(qiáng)的獎(jiǎng)勵(lì)函數(shù),使綠色和藍(lán)色形狀發(fā)生碰撞時(shí)獲得+1獎(jiǎng)勵(lì),碰撞紅色形狀則獲得-1獎(jiǎng)勵(lì)。此外,研究者提供了隨機(jī)級(jí)別生成器,以確保環(huán)境的多樣性并減少簡(jiǎn)并情況的出現(xiàn)。
5. 實(shí)驗(yàn)結(jié)果與智能體性能
研究者在Kinetix環(huán)境中訓(xùn)練的RL智能體表現(xiàn)出對(duì)一般機(jī)械特性的理解,并能夠零樣本解決未見過的手工環(huán)境。微調(diào)過程中,通用智能體的性能顯著提升,尤其在特定困難環(huán)境中,微調(diào)智能體能減少學(xué)習(xí)所需樣本數(shù)量,并解決專門訓(xùn)練過的智能體無法完成的任務(wù)。
6. 總結(jié)與展望
Kinetix的表現(xiàn)力和多樣性使其成為研究開放性、通用智能體和終身學(xué)習(xí)的理想環(huán)境。未來的研究可以進(jìn)一步探索Kinetix的潛力,以推動(dòng)通用智能體在更廣泛和復(fù)雜環(huán)境中的應(yīng)用。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)