像人一樣瀏覽網(wǎng)頁(yè)執(zhí)行任務(wù)!騰訊AI lab推出的多模態(tài)端到端Agent 一文解讀
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:像人一樣瀏覽網(wǎng)頁(yè)執(zhí)行任務(wù)!騰訊AI lab推出的多模態(tài)端到端Agent 一文解讀
關(guān)鍵字:任務(wù),解讀,騰訊,報(bào)告,網(wǎng)站
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):9847字
內(nèi)容摘要:
Agent的發(fā)展成為了LLM發(fā)展的一個(gè)熱點(diǎn)。只需通過(guò)簡(jiǎn)單指令,Agent幫你完成從輸入內(nèi)容、瀏覽網(wǎng)頁(yè)、選擇事項(xiàng)、點(diǎn)擊、返回等一系列需要執(zhí)行多步,才能完成的與網(wǎng)頁(yè)交互的復(fù)雜任務(wù)。
比如給定任務(wù):“搜索Apple商店,了解iPad智能保護(hù)殼Smart Folio的配件, 并查看最近的自提點(diǎn)位置 (郵政編碼90038)?!?br />下圖演示Agent如何按照在線方式逐步與Apple網(wǎng)站進(jìn)行交互,完成任務(wù)。在最后的屏幕截圖中,Agent獲取了所需的信息,然后選擇”ANSWER”動(dòng)作進(jìn)行回應(yīng)和導(dǎo)航的結(jié)束。
▲在線網(wǎng)絡(luò)瀏覽完整軌跡的屏幕截圖
Agent與Apple網(wǎng)站進(jìn)行交互, 并獲得答案:“Apple Valley Fair。”
然而,現(xiàn)有的Agent通常用于處理復(fù)雜且冗長(zhǎng)的HTML文本這一單一輸入模態(tài),而忽視了可以將HTML渲染為視覺網(wǎng)頁(yè)這一要點(diǎn),并且僅在簡(jiǎn)化的網(wǎng)絡(luò)模擬器或靜態(tài)網(wǎng)絡(luò)快照中進(jìn)行評(píng)估,很大程度上限制了Agent在現(xiàn)實(shí)世界場(chǎng)景中的適用性。
騰訊AI lab提出了一種新的多模態(tài)網(wǎng)絡(luò)Agent——WebVoyager,旨在以端到端的方式在線處理網(wǎng)絡(luò)任務(wù),即在沒有人工介入的情況下從開始到結(jié)束自主管
原文鏈接:像人一樣瀏覽網(wǎng)頁(yè)執(zhí)行任務(wù)!騰訊AI lab推出的多模態(tài)端到端Agent 一文解讀
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:「算法邦」,隸屬于智猩猩,關(guān)注大模型、生成式AI、計(jì)算機(jī)視覺三大領(lǐng)域的研究與開發(fā),提供技術(shù)文章、講座、在線研討會(huì)。