Cradle是一款創新的多模態AI代理框架,旨在實現通用計算機控制(General Computer Control,GCC)。該項目由昆侖萬維與北京智源人工智能研究院、新加坡南洋理工大學、北京大學等頂尖學術機構聯合開發,允許AI代理無需額外訓練即可像人類一樣直接與計算機進行交互,通過鍵盤和鼠標控制各種開源和閉源軟件。Cradle是首個能夠同時操控多種商業游戲和軟件應用的AI框架,其相關論文、項目和代碼均已開源。
Cradle的主要功能
- 信息收集:從屏幕圖像和音頻中提取多模態信息,以便支持決策過程。
- 自我反思:評估之前操作的成效,并分析失誤的原因,以指導后續行動。
- 任務推斷:根據當前環境和歷史數據,推理并選擇下一個最優任務。
- 技能規劃:生成和更新與特定任務相關的技能,以應對不同的計算機操作需求。
- 動作計劃:為鍵盤和鼠標操作制定具體的執行步驟,將策略轉化為可操作的指令。
Cradle的技術原理
- 多模態輸入處理:Cradle可以接收并解析屏幕圖像和音頻的多模態輸入,模擬人類對計算機界面的感知與理解。
- 信息提取與理解:利用大型多模態模型(如GPT-4V)識別圖像中的視覺元素、文本信息以及音頻中的指令或反饋。
- 自我反思機制:通過反思模塊,Cradle能夠評估先前動作的成功與否,并分析失敗原因,從而調整策略。
- 任務推斷與規劃:Cradle通過任務推斷模塊識別當前的優先任務,并在動作規劃模塊中制定完成任務所需的新動作。
- 技能生成與更新:技能規劃模塊負責根據當前任務生成新的技能或更新已有技能,這些技能以代碼函數的形式呈現,可以被實例化并執行。
- 記憶與知識管理:Cradle具備長期和短期記憶系統,存儲過去的經驗與技能,以便在需要時進行檢索和應用。
Cradle的項目地址
- GitHub倉庫:https://github.com/BAAI-Agents/Cradle
- arXiv技術論文:https://arxiv.org/pdf/2403.03186
Cradle的應用場景
- 桌面軟件自動化:自動執行桌面應用中的重復性任務,如文檔編輯、表格處理和圖像編輯等。
- 網頁內容交互:模擬用戶與網頁的互動,包括填寫表單、點擊按鈕和導航鏈接等。
- 游戲環境:在游戲環境中,如《荒野大鏢客:救贖II》,Cradle能夠控制游戲角色進行任務、探索和戰斗。
- 專業軟件操作:在需要專業技能的軟件中,如圖形設計或視頻編輯,Cradle能夠學習并執行特定的創作任務。
- 日常計算機任務:處理日常計算機使用中的任務,比如文件管理、電子郵件處理和日程安排等。
常見問題
- Cradle是否需要額外的培訓? 不需要,Cradle可以直接控制計算機,無需任何額外訓練。
- Cradle支持哪些類型的軟件? Cradle支持多種開源和閉源軟件的操作。
- 如何獲取Cradle的源代碼? 可以在GitHub上的Cradle倉庫中獲取源代碼。
- Cradle是否有使用的限制? 在合法和道德的框架內使用Cradle,無論是個人還是商業目的。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...