控制電腦手機(jī)的智能體人人都能造,微軟開源OmniParser
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:控制電腦手機(jī)的智能體人人都能造,微軟開源OmniParser
關(guān)鍵字:華為,模型,數(shù)據(jù),圖標(biāo),基準(zhǔn)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda大?模型控制計(jì)算機(jī)果真就是未來方向?最近這幾天,讓大模型具備控制計(jì)算機(jī)(包括電腦和手機(jī))的相關(guān)研究和應(yīng)用如雨后春筍般不斷涌現(xiàn)。
先是 Anthropic 發(fā)布了能控制計(jì)算機(jī)的新版 Claude 3.5 Sonnet,之后榮耀 MagicOS 9.0 來了個(gè)全局智能體,再然后,昨天智譜發(fā)布了具備「全棧式工具使用能力」的 AutoGLM,同時(shí)華為也公布了一項(xiàng)可讓 AI 像人類一樣操作手機(jī)的新研究成果 LiMAC。
很顯然,這股熱潮完全沒有要停息的意思。今天,有網(wǎng)友發(fā)現(xiàn)蘋果已經(jīng)默默發(fā)布了 Ferret-UI 的兩個(gè)實(shí)現(xiàn)版本(分別基于 Gemma 2B 和 Llama 8B),這是蘋果今年五月發(fā)布的一個(gè)可讓 AI 理解手機(jī)屏幕的技術(shù),詳情參閱《讓大模型理解手機(jī)屏幕,蘋果多模態(tài) Ferret-UI 用自然語言操控手機(jī)》。來自 X 用戶 Niels Rogge
Ferret-UI 項(xiàng)目地址:https://huggingface.co/papers/2404.05719
不僅如此,微軟也低調(diào)開源了他們的相關(guān)研究 OmniParser,這是一個(gè)基于大模型的屏幕解析工具,
原文鏈接:控制電腦手機(jī)的智能體人人都能造,微軟開源OmniParser
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: