AIGC動態歡迎閱讀
原標題:像人一樣瀏覽網頁執行任務!騰訊AI lab推出的多模態端到端Agent 一文解讀
關鍵字:任務,解讀,騰訊,報告,網站
文章來源:算法邦
內容字數:9847字
內容摘要:
Agent的發展成為了LLM發展的一個熱點。只需通過簡單指令,Agent幫你完成從輸入內容、瀏覽網頁、選擇事項、點擊、返回等一系列需要執行多步,才能完成的與網頁交互的復雜任務。
比如給定任務:“搜索Apple商店,了解iPad智能保護殼Smart Folio的配件, 并查看最近的自提點位置 (郵政編碼90038)。”
下圖演示Agent如何按照在線方式逐步與Apple網站進行交互,完成任務。在最后的屏幕截圖中,Agent獲取了所需的信息,然后選擇”ANSWER”動作進行回應和導航的結束。
▲在線網絡瀏覽完整軌跡的屏幕截圖
Agent與Apple網站進行交互, 并獲得答案:“Apple Valley Fair。”
然而,現有的Agent通常用于處理復雜且冗長的HTML文本這一單一輸入模態,而忽視了可以將HTML渲染為視覺網頁這一要點,并且僅在簡化的網絡模擬器或靜態網絡快照中進行評估,很大程度上限制了Agent在現實世界場景中的適用性。
騰訊AI lab提出了一種新的多模態網絡Agent——WebVoyager,旨在以端到端的方式在線處理網絡任務,即在沒有人工介入的情況下從開始到結束自主管
原文鏈接:像人一樣瀏覽網頁執行任務!騰訊AI lab推出的多模態端到端Agent 一文解讀
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...