今日arXiv最熱NLP大模型論文:像人一樣瀏覽網(wǎng)頁執(zhí)行任務(wù),騰訊AI lab發(fā)布多模態(tài)端到端Agent
AIGC動態(tài)歡迎閱讀
原標題:今日arXiv最熱NLP大模型論文:像人一樣瀏覽網(wǎng)頁執(zhí)行任務(wù),騰訊AI lab發(fā)布多模態(tài)端到端Agent
關(guān)鍵字:解讀,任務(wù),報告,騰訊,網(wǎng)站
文章來源:夕小瑤科技說
內(nèi)容字數(shù):10123字
內(nèi)容摘要:
?夕小瑤科技說 原創(chuàng)作者 | 謝年年Agent的發(fā)展成為了LLM發(fā)展的一個熱點。只需通過簡單指令,Agent幫你完成從輸入內(nèi)容、瀏覽網(wǎng)頁、選擇事項、點擊、返回等一系列需要執(zhí)行多步,才能完成的與網(wǎng)頁交互的復雜任務(wù)。
比如給定任務(wù):“搜索Apple商店,了解iPad智能保護殼Smart Folio的配件, 并查看最近的自提點位置 (郵政編碼90038)。”
下圖演示Agent如何按照在線方式逐步與Apple網(wǎng)站進行交互,完成任務(wù)。在最后的屏幕截圖中,Agent獲取了所需的信息,然后選擇”ANSWER”動作進行回應(yīng)和導航的結(jié)束。
▲在線網(wǎng)絡(luò)瀏覽完整軌跡的屏幕截圖Agent與Apple網(wǎng)站進行交互, 并獲得答案:“Apple Valley Fair。”
然而,現(xiàn)有的Agent通常用于處理復雜且冗長的HTML文本這一單一輸入模態(tài),而忽視了可以將HTML渲染為視覺網(wǎng)頁這一要點,并且僅在簡化的網(wǎng)絡(luò)模擬器或靜態(tài)網(wǎng)絡(luò)快照中進行評估,很大程度上限制了Agent在現(xiàn)實世界場景中的適用性。
騰訊AI lab提出了一種新的多模態(tài)網(wǎng)絡(luò)Agent——WebVoyager,旨在以端到端的方式在線處理網(wǎng)絡(luò)任務(wù),即在沒有
原文鏈接:今日arXiv最熱NLP大模型論文:像人一樣瀏覽網(wǎng)頁執(zhí)行任務(wù),騰訊AI lab發(fā)布多模態(tài)端到端Agent
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)湫袠I(yè)嗅覺與報道深度。