AndroidGen – 智譜推出增強大語言模型 Agent 能力的框架
AndroidGen 是智譜技術(shù)團隊開發(fā)的一種框架,旨在增強基于大語言模型(LLM)的智能代理(Agent)能力,尤其在數(shù)據(jù)稀缺的環(huán)境中表現(xiàn)突出。該框架通過收集人類任務(wù)軌跡并利用這些軌跡訓(xùn)練語言模型,從而實現(xiàn)無需人工標(biāo)注的智能代理,顯著提高了 LLM 執(zhí)行復(fù)雜任務(wù)的能力。
AndroidGen是什么
AndroidGen 是智譜技術(shù)團隊推出的一種框架,旨在提升基于大語言模型(LLM)的智能代理能力,尤其是在數(shù)據(jù)稀缺的情況下。該框架通過收集人類的任務(wù)軌跡,并基于這些軌跡對語言模型進行訓(xùn)練,成功開發(fā)出無需人工標(biāo)注的智能代理,極大地增強了 LLM 執(zhí)行復(fù)雜任務(wù)的能力。
AndroidGen的主要功能
- 無需人工標(biāo)注的數(shù)據(jù)收集與訓(xùn)練:AndroidGen 通過收集人類任務(wù)軌跡,能夠在沒有人工標(biāo)注的情況下訓(xùn)練出高效的智能代理。
- 增強代理的任務(wù)執(zhí)行能力:AndroidGen 通過四個核心模塊(ExpSearch、ReflectPlan、AutoCheck 和 StepCritic)顯著提升了 LLM 在執(zhí)行復(fù)雜任務(wù)時的能力。
- xpSearch(經(jīng)驗搜索):通過檢索已完成的類似軌跡,幫助 LLM 進行上下文學(xué)習(xí),從而使智能代理的能力得以提升,促進其在簡單任務(wù)與復(fù)雜任務(wù)間的泛化。
- ReflectPlan(反思計劃):對當(dāng)前環(huán)境進行自我反思并更新計劃狀態(tài),增強智能代理的長期推理能力。
- AutoCheck(自動檢查):主動驗證每個智能代理操作的有效性,降低因操作失誤導(dǎo)致任務(wù)失敗的風(fēng)險。
- StepCritic(步驟評估):將任務(wù)分解為多個子目標(biāo),并提供逐步軌跡評估,為模型優(yōu)化提供細(xì)粒度標(biāo)簽。
- 高效的數(shù)據(jù)收集管道:AndroidGen 建立了一個高效的數(shù)據(jù)收集管道,能夠生成大量高質(zhì)量的 Android 瀏覽軌跡。
AndroidGen的技術(shù)原理
- 模型訓(xùn)練:利用 LoRA 技術(shù),對自動構(gòu)建的數(shù)據(jù)集進行微調(diào),包括 GLM-4-9B 和 Llama-3-70B,從而得到 Android Agent 模型。無需人工標(biāo)注軌跡,通過將軌跡中的每一步作為樣本進行訓(xùn)練,充分挖掘數(shù)據(jù)集中的信息。
- 混合規(guī)劃與執(zhí)行步驟:將規(guī)劃與執(zhí)行步驟結(jié)合進行微調(diào),使 LLM 同時具備規(guī)劃與執(zhí)行的能力。
- 數(shù)據(jù)收集流程:
- 任務(wù)制定:基于 GPT-4o,從 AndroidWorld 中生成約 300 條任務(wù)指令。
- 代理采樣:基于 AndroidWorld 和 GPT-4o 對每個任務(wù)的軌跡進行采樣。
- 軌跡記錄:記錄每一步的環(huán)境和操作信息,構(gòu)建可復(fù)現(xiàn)的 Android 導(dǎo)航軌跡。
- 軌跡評估:使用 StepCritic 對記錄的軌跡進行評估,確保每個子目標(biāo)的完成。
- 軌跡增強:擴充高質(zhì)量數(shù)據(jù)集,最終構(gòu)建了一個包含 1000 多個軌跡的數(shù)據(jù)集。
AndroidGen的性能效果
- AndroidWorld 基準(zhǔn)測試:
- AndroidGen 顯著提升了相同基礎(chǔ)模型下智能代理的能力,與 M3A 和 SeeAct 相比,表現(xiàn)更為突出。
- AndroidGen + GPT-4o 的平均得分達到了 46.8,遠(yuǎn)超其他組合。
- 模型參數(shù)較小且開源的 GLM-4-9B + AndroidGen 的平均得分,超過了模型參數(shù)更大且閉源的 GPT-4o + M3A。
- AitW(Android in the Wild) 和八款全球流行的移動應(yīng)用程序(如 Google Maps、YouTube 等)的評測中,AndroidGen 顯示出色,在真實設(shè)備環(huán)境中對自然語言指令的理解與交互能力。
AndroidGen的應(yīng)用場景
- 自動化任務(wù)處理:通過自然語言指令,智能代理能夠自動完成發(fā)送郵件、設(shè)置提醒、查詢信息等任務(wù)。
- 跨應(yīng)用操作:智能代理能夠在不同應(yīng)用之間進行交互,實現(xiàn)如從一個應(yīng)用復(fù)制數(shù)據(jù)到另一個應(yīng)用等操作。
- 智能導(dǎo)航:在 Android 設(shè)備上,智能代理能夠根據(jù)用戶指令進行導(dǎo)航,如打開特定應(yīng)用、查找文件等。
- 智能交互:通過自然語言理解,智能代理能夠與用戶進行互動,提供更加智能的用戶體驗。
產(chǎn)品官網(wǎng)
欲了解更多信息,請訪問 AndroidGen 的官方網(wǎng)站。
常見問題
如有任何疑問,請查閱我們的常見問題解答頁面,以獲得更多幫助和支持。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...