像人一樣瀏覽網頁執行任務！騰訊AI lab推出的多模態端到端Agent 一文解讀

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：像人一樣瀏覽網頁執行任務！騰訊AI lab推出的多模態端到端Agent 一文解讀
關鍵字：任務,解讀,騰訊,報告,網站
文章來源：算法邦
內容字數：9847字

內容摘要：

Agent的發展成為了LLM發展的一個熱點。只需通過簡單指令，Agent幫你完成從輸入內容、瀏覽網頁、選擇事項、點擊、返回等一系列需要執行多步，才能完成的與網頁交互的復雜任務。
比如給定任務：“搜索Apple商店，了解iPad智能保護殼Smart Folio的配件，并查看最近的自提點位置（郵政編碼90038）。”
下圖演示Agent如何按照在線方式逐步與Apple網站進行交互，完成任務。在最后的屏幕截圖中，Agent獲取了所需的信息，然后選擇”ANSWER”動作進行回應和導航的結束。
▲在線網絡瀏覽完整軌跡的屏幕截圖
Agent與Apple網站進行交互，并獲得答案：“Apple Valley Fair。”
然而，現有的Agent通常用于處理復雜且冗長的HTML文本這一單一輸入模態，而忽視了可以將HTML渲染為視覺網頁這一要點，并且僅在簡化的網絡模擬器或靜態網絡快照中進行評估，很大程度上限制了Agent在現實世界場景中的適用性。
騰訊AI lab提出了一種新的多模態網絡Agent——WebVoyager，旨在以端到端的方式在線處理網絡任務，即在沒有人工介入的情況下從開始到結束自主管

原文鏈接：像人一樣瀏覽網頁執行任務！騰訊AI lab推出的多模態端到端Agent 一文解讀