智能體自適應(yīng)新環(huán)境的:浙大杭電框架榮登NeurIPS舞臺(tái)
任務(wù)成功率可達(dá)97%
原標(biāo)題:一次示范讓Agent適應(yīng)各種新環(huán)境,浙大杭電智能體框架入選NeurIPS
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5702字
研究背景
隨著大語(yǔ)言模型(LLM Agents)在各個(gè)領(lǐng)域中的廣泛應(yīng)用,智能體在執(zhí)行任務(wù)時(shí)的自主性和適應(yīng)性受到關(guān)注。然而,現(xiàn)有的智能體往往過(guò)度依賴人類專家的知識(shí),難以在新環(huán)境中學(xué)習(xí)和適應(yīng)。
AutoManual框架的提出
為了解決這一問(wèn)題,杭州電子科技大學(xué)和浙江大學(xué)的研究者提出了AutoManual框架。該框架通過(guò)模仿人類在新環(huán)境中“記筆記”的過(guò)程,使智能體能夠通過(guò)一次人類示范適應(yīng)新環(huán)境,成功率可達(dá)97%。
框架結(jié)構(gòu)
AutoManual框架包含三個(gè)主要階段:Building、Formulating和Testing。
- Building階段:Planner Agent與Builder Agent合作,通過(guò)與環(huán)境互動(dòng)構(gòu)建規(guī)則。Builder Agent在此階段使用規(guī)則系統(tǒng)更新環(huán)境規(guī)則。
- Formulating階段:Formulator Agent將規(guī)則整理成Markdown格式的指導(dǎo)手冊(cè),增強(qiáng)規(guī)則的可讀性和理解性。
- Testing階段:使用生成的手冊(cè)評(píng)估智能體的任務(wù)執(zhí)行效果,確保其能有效指導(dǎo)較小模型。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在ALFWorld和MiniWoB++等環(huán)境中進(jìn)行實(shí)驗(yàn),結(jié)果表明,只需一個(gè)人類示范,AutoManual就能顯著提高智能體的成功率。在ALFWorld中,智能體成功率達(dá)97%,而在MiniWoB++中成功率達(dá)到98%。
總結(jié)與影響
AutoManual框架有效地減少了對(duì)人類專家知識(shí)的依賴,通過(guò)記錄和更新環(huán)境理解,幫助智能體更好地適應(yīng)新環(huán)境。這種方法不僅提升了智能體的自主性,也為其他智能體提供了規(guī)劃指導(dǎo),具有重要的應(yīng)用前景。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破