解放雙手!OSCAR讓操作系統(tǒng)交互實(shí)現(xiàn)自然語言「」
操作系統(tǒng)智能交互難題。
原標(biāo)題:解放雙手!OSCAR讓操作系統(tǒng)交互實(shí)現(xiàn)自然語言「」
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4967字
機(jī)器之心AIxiv專欄:OSCAR——開啟操作系統(tǒng)交互新時代的開源解決方案
本文介紹了加拿大蒙特利爾大學(xué)和Mila研究所研究團(tuán)隊(duì)的開源項(xiàng)目OSCAR,一個用于操作系統(tǒng)UI自動化的新型智能體。該研究已被ICLR錄用,其創(chuàng)新之處在于結(jié)合了靈活的狀態(tài)機(jī)和動態(tài)重規(guī)劃能力,實(shí)現(xiàn)了在不同操作系統(tǒng)(Windows、Ubuntu、Android)上的泛化與驗(yàn)證。
1. 桌面任務(wù)UI自動化的挑戰(zhàn)
現(xiàn)有的基于多模態(tài)大型語言模型(MLLM)的智能體在處理復(fù)雜任務(wù)時,存在通用性差、難以適應(yīng)復(fù)雜工作流、缺乏實(shí)時反饋和自適應(yīng)調(diào)整等問題。尤其是在面對動態(tài)的UI環(huán)境和多種操作路徑時,傳統(tǒng)智能體難以應(yīng)對。
2. OSCAR的創(chuàng)新設(shè)計(jì)
為了解決上述挑戰(zhàn),OSCAR采用了以下創(chuàng)新設(shè)計(jì):
- 狀態(tài)機(jī)架構(gòu):OSCAR 通過“初始化-觀察-規(guī)劃-執(zhí)行-驗(yàn)證”循環(huán)處理任務(wù),并利用實(shí)時反饋進(jìn)行動態(tài)重規(guī)劃,提高效率和適應(yīng)性。
- 視覺和語義雙重UI定位:OSCAR 結(jié)合Set-of-Mark(SoM)提示技術(shù)、可訪問性(A11Y)樹和描述性標(biāo)簽,實(shí)現(xiàn)精準(zhǔn)的UI元素定位。
- 任務(wù)驅(qū)動重新規(guī)劃:OSCAR 將用戶指令分解為子任務(wù),并根據(jù)反饋對特定子任務(wù)進(jìn)行重規(guī)劃,提高效率并防止錯誤傳播。
- 基于代碼的動作:OSCAR 利用生成的語義定位信息,通過PyAutoGUI庫生成控制代碼,精確控制操作系統(tǒng)。
3. OSCAR的實(shí)驗(yàn)驗(yàn)證
研究人員在GAIA、OSWorld、AndroidWorld等基準(zhǔn)數(shù)據(jù)集上對OSCAR進(jìn)行了評估,結(jié)果顯示:
- 基準(zhǔn)測評成績突出:OSCAR在所有基準(zhǔn)測試中均取得了最佳成績,尤其在GAIA基準(zhǔn)測試中最復(fù)雜的Level 3任務(wù)上,成功率達(dá)到13.5%,幾乎是之前最先進(jìn)方法的兩倍。
- 規(guī)劃效率優(yōu)勢顯著:OSCAR在成功案例中重新規(guī)劃次數(shù)更少,效率更高;在失敗案例中,其重新規(guī)劃冗余度也明顯低于其他智能體系統(tǒng)。
4. 結(jié)語
OSCAR作為一款開源的通用智能體,憑借其靈活的狀態(tài)機(jī)和動態(tài)重規(guī)劃能力,在桌面和智能手機(jī)操作系統(tǒng)任務(wù)中展現(xiàn)出強(qiáng)大的適應(yīng)性和有效性。它為自動化工作流提供了高效通用的解決方案,有望成為提升生產(chǎn)力的有力工具,并推動通用人工智能與數(shù)字世界實(shí)現(xiàn)更完美的交互。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺