突破界限:智能體如何在未知人類設計環(huán)境中實現(xiàn)零樣本學習的性進展
能在2D物理環(huán)境中執(zhí)行多樣化任務了
原標題:智能體零樣本解決未見過人類設計環(huán)境!全靠這個開放式物理RL環(huán)境空間
文章來源:機器之心
內(nèi)容字數(shù):5768字
1. 研究背景與目標
在機器學習領域,開發(fā)能夠在未見過領域表現(xiàn)出色的通用智能體一直是長期目標之一。牛津大學的研究者們提出了Kinetix框架,旨在通過開放式物理控制任務訓練通用智能體,推動其在2D物理環(huán)境中的應用。
2. Kinetix框架的特點
Kinetix框架覆蓋范圍廣泛,可以表征多種任務,包括機器人抓取、經(jīng)典RL環(huán)境(如Cartpole、Acrobot)、電子游戲等。為了支持Kinetix,研究者們開發(fā)了基于JAX的物理引擎Jax2D,能夠高效模擬數(shù)十億次環(huán)境交互。通過隨機采樣Kinetix環(huán)境,幾乎可以無限生成多樣化的訓練任務。
3. 動作與觀察空間
Kinetix支持多離散和連續(xù)動作空間,并使用符號觀察表示每個實體的物理屬性。該觀察空間使環(huán)境完全可觀察,允許智能體在沒有記憶的情況下進行策略學習,并且支持基于像素的觀察選項。
4. 獎勵機制與環(huán)境生成
研究中選擇了簡單而表達力強的獎勵函數(shù),使綠色和藍色形狀發(fā)生碰撞時獲得+1獎勵,碰撞紅色形狀則獲得-1獎勵。此外,研究者提供了隨機級別生成器,以確保環(huán)境的多樣性并減少簡并情況的出現(xiàn)。
5. 實驗結果與智能體性能
研究者在Kinetix環(huán)境中訓練的RL智能體表現(xiàn)出對一般機械特性的理解,并能夠零樣本解決未見過的手工環(huán)境。微調(diào)過程中,通用智能體的性能顯著提升,尤其在特定困難環(huán)境中,微調(diào)智能體能減少學習所需樣本數(shù)量,并解決專門訓練過的智能體無法完成的任務。
6. 總結與展望
Kinetix的表現(xiàn)力和多樣性使其成為研究開放性、通用智能體和終身學習的理想環(huán)境。未來的研究可以進一步探索Kinetix的潛力,以推動通用智能體在更廣泛和復雜環(huán)境中的應用。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺