WebRL是清華大學(xué)與智譜AI共同開發(fā)的在線課程強化學(xué)習(xí)框架,旨在通過開放大型語言模型(LLMs)訓(xùn)練高效的網(wǎng)絡(luò)代理。該系統(tǒng)能夠動態(tài)生成任務(wù),利用結(jié)果監(jiān)督獎勵模型(ORM)評估任務(wù)的成功與否,并實施自適應(yīng)強化學(xué)習(xí)策略,從而有效應(yīng)對訓(xùn)練任務(wù)不足、反饋信號稀疏及在線學(xué)習(xí)中的策略分布漂移等挑戰(zhàn)。WebRL在WebArena-Lite基準(zhǔn)測試中顯著提高了如Llama-3.1和GLM-4等模型的成功率,優(yōu)于專有的LLM API以及以往訓(xùn)練的網(wǎng)絡(luò)代理,充分顯示了其在提升開源LLMs網(wǎng)絡(luò)任務(wù)能力方面的卓越表現(xiàn)。
WebRL是什么
WebRL是清華大學(xué)與智譜AI攜手推出的一款自我進(jìn)化的在線課程強化學(xué)習(xí)框架,專注于訓(xùn)練基于開放大型語言模型(LLMs)的高效網(wǎng)絡(luò)代理。該框架能夠動態(tài)生成任務(wù),并通過結(jié)果監(jiān)督獎勵模型(ORM)來評估任務(wù)的完成情況,配合自適應(yīng)強化學(xué)習(xí)策略,從而解決了訓(xùn)練任務(wù)匱乏、反饋信號稀缺及在線學(xué)習(xí)中的策略分布漂移等諸多問題。
WebRL的主要功能
- 自我進(jìn)化課程學(xué)習(xí):WebRL能夠從失敗的嘗試中創(chuàng)造新任務(wù),動態(tài)調(diào)整任務(wù)的難度與復(fù)雜性,以適應(yīng)智能體當(dāng)前的技能水平。
- 結(jié)果監(jiān)督獎勵模型(ORM):WebRL通過訓(xùn)練ORM來評估任務(wù)的成功與否,提供二進(jìn)制獎勵信號(成功為1,失敗為0),從而有效指導(dǎo)智能體的學(xué)習(xí)進(jìn)程。
- 自適應(yīng)強化學(xué)習(xí)策略:WebRL采用基于KL散度約束的策略更新算法,限制策略更新過程中的分布漂移,確保智能體在學(xué)習(xí)新任務(wù)時不偏離已有知識。
- 經(jīng)驗回放緩沖區(qū):WebRL通過經(jīng)驗回放緩沖區(qū)保留過去的成功經(jīng)驗,降低災(zāi)難性遺忘風(fēng)險,并在訓(xùn)練過程中重用這些經(jīng)驗。
- 持續(xù)性能提升:WebRL采用迭代自我進(jìn)化的方法,讓智能體在在線環(huán)境中持續(xù)、一致地提升其性能。
WebRL的技術(shù)原理
- 問題表述:WebRL將網(wǎng)絡(luò)任務(wù)建模為有限視界的馬爾可夫決策過程(MDP),明確狀態(tài)、動作、獎勵和轉(zhuǎn)移概率。
- ORM訓(xùn)練:通過訓(xùn)練LLM作為ORM,WebRL自動評估代理的執(zhí)行軌跡是否成功完成任務(wù),提供必要的反饋信號。
- 強化學(xué)習(xí):在網(wǎng)絡(luò)環(huán)境中,WebRL利用自我進(jìn)化的課程學(xué)習(xí)策略動態(tài)生成任務(wù),并通過KL約束策略更新算法防止策略分布的劇烈漂移。
- 經(jīng)驗回放:使用經(jīng)驗回放緩沖區(qū)保留先前的知識,降低災(zāi)難性遺忘的風(fēng)險,并避免對錯誤軌跡的中間狀態(tài)進(jìn)行不準(zhǔn)確估計。
- 自我進(jìn)化的課程學(xué)習(xí)策略:WebRL實施生成與過濾的雙重流程,生成日益具有挑戰(zhàn)性的任務(wù),同時確保這些任務(wù)仍適合代理當(dāng)前的能力,基于In-breadth evolving技術(shù)創(chuàng)建新指令。
- 策略更新:在策略更新過程中,WebRL考慮新舊策略之間的KL散度,以確保策略平穩(wěn)過渡,避免因策略更新而導(dǎo)致性能下降。
WebRL的項目地址
- GitHub倉庫:https://github.com/THUDM/WebRL
- arXiv技術(shù)論文:https://arxiv.org/pdf/2411.02337v1
WebRL的應(yīng)用場景
- 網(wǎng)頁瀏覽自動化:WebRL可訓(xùn)練智能體自動完成網(wǎng)頁瀏覽任務(wù),如信息檢索、表單填寫與網(wǎng)上購物等。
- 網(wǎng)絡(luò)數(shù)據(jù)提取:在需要從網(wǎng)頁中提取特定數(shù)據(jù)(如價格、評論、新聞文章)的場景中,WebRL可以自動化數(shù)據(jù)提取過程。
- 客戶服務(wù)自動化:作為機器人,WebRL能在客戶服務(wù)領(lǐng)域通過網(wǎng)頁交互解決用戶問題或完成交易。
- 網(wǎng)絡(luò)內(nèi)容管理:對于需要管理大量網(wǎng)絡(luò)內(nèi)容的網(wǎng)站管理員,WebRL能自動化內(nèi)容更新、發(fā)布及維護(hù)任務(wù)。
- 電子商務(wù):在電子商務(wù)平臺中,WebRL幫助實現(xiàn)訂單處理、庫存管理及客戶互動的自動化。
常見問題
- WebRL如何提高訓(xùn)練效率?:通過動態(tài)生成任務(wù)和自我進(jìn)化的策略,WebRL能夠適應(yīng)不同智能體的能力水平,從而提升訓(xùn)練效率。
- ORM的作用是什么?:ORM用于評估任務(wù)的成功與否,并提供明確的獎勵信號,幫助智能體更好地學(xué)習(xí)。
- WebRL適合哪些應(yīng)用場景?:WebRL在網(wǎng)頁瀏覽自動化、數(shù)據(jù)提取、客戶服務(wù)、內(nèi)容管理和電子商務(wù)等多個領(lǐng)域都有廣泛的應(yīng)用。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...