突破界限：智能體如何在未知人類設計環(huán)境中實現(xiàn)零樣本學習的性進展

能在2D物理環(huán)境中執(zhí)行多樣化任務了

突破界限：智能體如何在未知人類設計環(huán)境中實現(xiàn)零樣本學習的革命性進展

原標題：智能體零樣本解決未見過人類設計環(huán)境！全靠這個開放式物理RL環(huán)境空間
文章來源：機器之心
內(nèi)容字數(shù)：5768字

1. 研究背景與目標

在機器學習領域，開發(fā)能夠在未見過領域表現(xiàn)出色的通用智能體一直是長期目標之一。牛津大學的研究者們提出了Kinetix框架，旨在通過開放式物理控制任務訓練通用智能體，推動其在2D物理環(huán)境中的應用。

2. Kinetix框架的特點

Kinetix框架覆蓋范圍廣泛，可以表征多種任務，包括機器人抓取、經(jīng)典RL環(huán)境（如Cartpole、Acrobot）、電子游戲等。為了支持Kinetix，研究者們開發(fā)了基于JAX的物理引擎Jax2D，能夠高效模擬數(shù)十億次環(huán)境交互。通過隨機采樣Kinetix環(huán)境，幾乎可以無限生成多樣化的訓練任務。

3. 動作與觀察空間

Kinetix支持多離散和連續(xù)動作空間，并使用符號觀察表示每個實體的物理屬性。該觀察空間使環(huán)境完全可觀察，允許智能體在沒有記憶的情況下進行策略學習，并且支持基于像素的觀察選項。

4. 獎勵機制與環(huán)境生成

研究中選擇了簡單而表達力強的獎勵函數(shù)，使綠色和藍色形狀發(fā)生碰撞時獲得+1獎勵，碰撞紅色形狀則獲得-1獎勵。此外，研究者提供了隨機級別生成器，以確保環(huán)境的多樣性并減少簡并情況的出現(xiàn)。

5. 實驗結果與智能體性能

研究者在Kinetix環(huán)境中訓練的RL智能體表現(xiàn)出對一般機械特性的理解，并能夠零樣本解決未見過的手工環(huán)境。微調(diào)過程中，通用智能體的性能顯著提升，尤其在特定困難環(huán)境中，微調(diào)智能體能減少學習所需樣本數(shù)量，并解決專門訓練過的智能體無法完成的任務。