WebRL

WebRL是清華大學(xué)與智譜AI共同開發(fā)的在線課程強化學(xué)習(xí)框架，旨在通過開放大型語言模型（LLMs）訓(xùn)練高效的網(wǎng)絡(luò)代理。該系統(tǒng)能夠動態(tài)生成任務(wù)，利用結(jié)果監(jiān)督獎勵模型（ORM）評估任務(wù)的成功與否，并實施自適應(yīng)強化學(xué)習(xí)策略，從而有效應(yīng)對訓(xùn)練任務(wù)不足、反饋信號稀疏及在線學(xué)習(xí)中的策略分布漂移等挑戰(zhàn)。WebRL在WebArena-Lite基準(zhǔn)測試中顯著提高了如Llama-3.1和GLM-4等模型的成功率，優(yōu)于專有的LLM API以及以往訓(xùn)練的網(wǎng)絡(luò)代理，充分顯示了其在提升開源LLMs網(wǎng)絡(luò)任務(wù)能力方面的卓越表現(xiàn)。

WebRL是什么

WebRL是清華大學(xué)與智譜AI攜手推出的一款自我進(jìn)化的在線課程強化學(xué)習(xí)框架，專注于訓(xùn)練基于開放大型語言模型（LLMs）的高效網(wǎng)絡(luò)代理。該框架能夠動態(tài)生成任務(wù)，并通過結(jié)果監(jiān)督獎勵模型（ORM）來評估任務(wù)的完成情況，配合自適應(yīng)強化學(xué)習(xí)策略，從而解決了訓(xùn)練任務(wù)匱乏、反饋信號稀缺及在線學(xué)習(xí)中的策略分布漂移等諸多問題。

WebRL

WebRL的主要功能

自我進(jìn)化課程學(xué)習(xí)：WebRL能夠從失敗的嘗試中創(chuàng)造新任務(wù)，動態(tài)調(diào)整任務(wù)的難度與復(fù)雜性，以適應(yīng)智能體當(dāng)前的技能水平。
結(jié)果監(jiān)督獎勵模型（ORM）：WebRL通過訓(xùn)練ORM來評估任務(wù)的成功與否，提供二進(jìn)制獎勵信號（成功為1，失敗為0），從而有效指導(dǎo)智能體的學(xué)習(xí)進(jìn)程。
自適應(yīng)強化學(xué)習(xí)策略：WebRL采用基于KL散度約束的策略更新算法，限制策略更新過程中的分布漂移，確保智能體在學(xué)習(xí)新任務(wù)時不偏離已有知識。
經(jīng)驗回放緩沖區(qū)：WebRL通過經(jīng)驗回放緩沖區(qū)保留過去的成功經(jīng)驗，降低災(zāi)難性遺忘風(fēng)險，并在訓(xùn)練過程中重用這些經(jīng)驗。
持續(xù)性能提升：WebRL采用迭代自我進(jìn)化的方法，讓智能體在在線環(huán)境中持續(xù)、一致地提升其性能。

WebRL的技術(shù)原理

問題表述：WebRL將網(wǎng)絡(luò)任務(wù)建模為有限視界的馬爾可夫決策過程（MDP），明確狀態(tài)、動作、獎勵和轉(zhuǎn)移概率。
ORM訓(xùn)練：通過訓(xùn)練LLM作為ORM，WebRL自動評估代理的執(zhí)行軌跡是否成功完成任務(wù)，提供必要的反饋信號。
強化學(xué)習(xí)：在網(wǎng)絡(luò)環(huán)境中，WebRL利用自我進(jìn)化的課程學(xué)習(xí)策略動態(tài)生成任務(wù)，并通過KL約束策略更新算法防止策略分布的劇烈漂移。
經(jīng)驗回放：使用經(jīng)驗回放緩沖區(qū)保留先前的知識，降低災(zāi)難性遺忘的風(fēng)險，并避免對錯誤軌跡的中間狀態(tài)進(jìn)行不準(zhǔn)確估計。
自我進(jìn)化的課程學(xué)習(xí)策略：WebRL實施生成與過濾的雙重流程，生成日益具有挑戰(zhàn)性的任務(wù)，同時確保這些任務(wù)仍適合代理當(dāng)前的能力，基于In-breadth evolving技術(shù)創(chuàng)建新指令。
策略更新：在策略更新過程中，WebRL考慮新舊策略之間的KL散度，以確保策略平穩(wěn)過渡，避免因策略更新而導(dǎo)致性能下降。

WebRL的項目地址

GitHub倉庫：https://github.com/THUDM/WebRL
arXiv技術(shù)論文：https://arxiv.org/pdf/2411.02337v1

WebRL的應(yīng)用場景

網(wǎng)頁瀏覽自動化：WebRL可訓(xùn)練智能體自動完成網(wǎng)頁瀏覽任務(wù)，如信息檢索、表單填寫與網(wǎng)上購物等。
網(wǎng)絡(luò)數(shù)據(jù)提取：在需要從網(wǎng)頁中提取特定數(shù)據(jù)（如價格、評論、新聞文章）的場景中，WebRL可以自動化數(shù)據(jù)提取過程。
客戶服務(wù)自動化：作為機器人，WebRL能在客戶服務(wù)領(lǐng)域通過網(wǎng)頁交互解決用戶問題或完成交易。
網(wǎng)絡(luò)內(nèi)容管理：對于需要管理大量網(wǎng)絡(luò)內(nèi)容的網(wǎng)站管理員，WebRL能自動化內(nèi)容更新、發(fā)布及維護(hù)任務(wù)。
電子商務(wù)：在電子商務(wù)平臺中，WebRL幫助實現(xiàn)訂單處理、庫存管理及客戶互動的自動化。

常見問題

WebRL如何提高訓(xùn)練效率？：通過動態(tài)生成任務(wù)和自我進(jìn)化的策略，WebRL能夠適應(yīng)不同智能體的能力水平，從而提升訓(xùn)練效率。
ORM的作用是什么？：ORM用于評估任務(wù)的成功與否，并提供明確的獎勵信號，幫助智能體更好地學(xué)習(xí)。
WebRL適合哪些應(yīng)用場景？：WebRL在網(wǎng)頁瀏覽自動化、數(shù)據(jù)提取、客戶服務(wù)、內(nèi)容管理和電子商務(wù)等多個領(lǐng)域都有廣泛的應(yīng)用。

閱讀原文