智能體自適應(yīng)新環(huán)境的：浙大杭電框架榮登NeurIPS舞臺(tái)

任務(wù)成功率可達(dá)97%

智能體自適應(yīng)新環(huán)境的革命：浙大杭電框架榮登NeurIPS舞臺(tái)

原標(biāo)題：一次示范讓Agent適應(yīng)各種新環(huán)境，浙大杭電智能體框架入選NeurIPS
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：5702字

研究背景

隨著大語(yǔ)言模型（LLM Agents）在各個(gè)領(lǐng)域中的廣泛應(yīng)用，智能體在執(zhí)行任務(wù)時(shí)的自主性和適應(yīng)性受到關(guān)注。然而，現(xiàn)有的智能體往往過(guò)度依賴人類專家的知識(shí)，難以在新環(huán)境中學(xué)習(xí)和適應(yīng)。

AutoManual框架的提出

為了解決這一問(wèn)題，杭州電子科技大學(xué)和浙江大學(xué)的研究者提出了AutoManual框架。該框架通過(guò)模仿人類在新環(huán)境中“記筆記”的過(guò)程，使智能體能夠通過(guò)一次人類示范適應(yīng)新環(huán)境，成功率可達(dá)97%。

框架結(jié)構(gòu)

AutoManual框架包含三個(gè)主要階段：Building、Formulating和Testing。

Building階段：Planner Agent與Builder Agent合作，通過(guò)與環(huán)境互動(dòng)構(gòu)建規(guī)則。Builder Agent在此階段使用規(guī)則系統(tǒng)更新環(huán)境規(guī)則。
Formulating階段：Formulator Agent將規(guī)則整理成Markdown格式的指導(dǎo)手冊(cè)，增強(qiáng)規(guī)則的可讀性和理解性。
Testing階段：使用生成的手冊(cè)評(píng)估智能體的任務(wù)執(zhí)行效果，確保其能有效指導(dǎo)較小模型。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在ALFWorld和MiniWoB++等環(huán)境中進(jìn)行實(shí)驗(yàn)，結(jié)果表明，只需一個(gè)人類示范，AutoManual就能顯著提高智能體的成功率。在ALFWorld中，智能體成功率達(dá)97%，而在MiniWoB++中成功率達(dá)到98%。

總結(jié)與影響

AutoManual框架有效地減少了對(duì)人類專家知識(shí)的依賴，通過(guò)記錄和更新環(huán)境理解，幫助智能體更好地適應(yīng)新環(huán)境。這種方法不僅提升了智能體的自主性，也為其他智能體提供了規(guī)劃指導(dǎo)，具有重要的應(yīng)用前景。

聯(lián)系作者

文章來(lái)源：量子位
作者微信：
作者簡(jiǎn)介：追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

閱讀原文

# AIGC動(dòng)態(tài)# 智能體框架 # 深度強(qiáng)化學(xué)習(xí)# 環(huán)境適應(yīng)# 示范學(xué)習(xí)# 遷移學(xué)習(xí)

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

智能體自適應(yīng)新環(huán)境的：浙大杭電框架榮登NeurIPS舞臺(tái)

任務(wù)成功率可達(dá)97%

研究背景

AutoManual框架的提出

框架結(jié)構(gòu)

實(shí)驗(yàn)結(jié)果

總結(jié)與影響

聯(lián)系作者

解鎖智能：混合專家大模型的未來(lái)潛力與應(yīng)用探索

AGI時(shí)代即將來(lái)臨：LeCun與奧特曼的驚人共識(shí)揭示LLM的終結(jié)命運(yùn)！

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)