Cradle是一款創(chuàng)新的多模態(tài)AI代理框架,旨在實現(xiàn)通用計算機控制(General Computer Control,GCC)。該項目由昆侖萬維與北京智源人工智能研究院、新加坡南洋理工大學(xué)、北京大學(xué)等頂尖學(xué)術(shù)機構(gòu)聯(lián)合開發(fā),允許AI代理無需額外訓(xùn)練即可像人類一樣直接與計算機進(jìn)行交互,通過鍵盤和鼠標(biāo)控制各種開源和閉源軟件。Cradle是首個能夠同時操控多種商業(yè)游戲和軟件應(yīng)用的AI框架,其相關(guān)論文、項目和代碼均已開源。
Cradle的主要功能
- 信息收集:從屏幕圖像和音頻中提取多模態(tài)信息,以便支持決策過程。
- 自我反思:評估之前操作的成效,并分析失誤的原因,以指導(dǎo)后續(xù)行動。
- 任務(wù)推斷:根據(jù)當(dāng)前環(huán)境和歷史數(shù)據(jù),推理并選擇下一個最優(yōu)任務(wù)。
- 技能規(guī)劃:生成和更新與特定任務(wù)相關(guān)的技能,以應(yīng)對不同的計算機操作需求。
- 動作計劃:為鍵盤和鼠標(biāo)操作制定具體的執(zhí)行步驟,將策略轉(zhuǎn)化為可操作的指令。
Cradle的技術(shù)原理
- 多模態(tài)輸入處理:Cradle可以接收并解析屏幕圖像和音頻的多模態(tài)輸入,模擬人類對計算機界面的感知與理解。
- 信息提取與理解:利用大型多模態(tài)模型(如GPT-4V)識別圖像中的視覺元素、文本信息以及音頻中的指令或反饋。
- 自我反思機制:通過反思模塊,Cradle能夠評估先前動作的成功與否,并分析失敗原因,從而調(diào)整策略。
- 任務(wù)推斷與規(guī)劃:Cradle通過任務(wù)推斷模塊識別當(dāng)前的優(yōu)先任務(wù),并在動作規(guī)劃模塊中制定完成任務(wù)所需的新動作。
- 技能生成與更新:技能規(guī)劃模塊負(fù)責(zé)根據(jù)當(dāng)前任務(wù)生成新的技能或更新已有技能,這些技能以代碼函數(shù)的形式呈現(xiàn),可以被實例化并執(zhí)行。
- 記憶與知識管理:Cradle具備長期和短期記憶系統(tǒng),存儲過去的經(jīng)驗與技能,以便在需要時進(jìn)行檢索和應(yīng)用。
Cradle的項目地址
- GitHub倉庫:https://github.com/BAAI-Agents/Cradle
- arXiv技術(shù)論文:https://arxiv.org/pdf/2403.03186
Cradle的應(yīng)用場景
- 桌面軟件自動化:自動執(zhí)行桌面應(yīng)用中的重復(fù)性任務(wù),如文檔編輯、表格處理和圖像編輯等。
- 網(wǎng)頁內(nèi)容交互:模擬用戶與網(wǎng)頁的互動,包括填寫表單、點擊按鈕和導(dǎo)航鏈接等。
- 游戲環(huán)境:在游戲環(huán)境中,如《荒野大鏢客:救贖II》,Cradle能夠控制游戲角色進(jìn)行任務(wù)、探索和戰(zhàn)斗。
- 專業(yè)軟件操作:在需要專業(yè)技能的軟件中,如圖形設(shè)計或視頻編輯,Cradle能夠?qū)W習(xí)并執(zhí)行特定的創(chuàng)作任務(wù)。
- 日常計算機任務(wù):處理日常計算機使用中的任務(wù),比如文件管理、電子郵件處理和日程安排等。
常見問題
- Cradle是否需要額外的培訓(xùn)? 不需要,Cradle可以直接控制計算機,無需任何額外訓(xùn)練。
- Cradle支持哪些類型的軟件? Cradle支持多種開源和閉源軟件的操作。
- 如何獲取Cradle的源代碼? 可以在GitHub上的Cradle倉庫中獲取源代碼。
- Cradle是否有使用的限制? 在合法和道德的框架內(nèi)使用Cradle,無論是個人還是商業(yè)目的。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...