控制電腦手機的智能體人人都能造,微軟開源OmniParser

AIGC動態(tài)歡迎閱讀
原標題:控制電腦手機的智能體人人都能造,微軟開源OmniParser
關(guān)鍵字:華為,模型,數(shù)據(jù),圖標,基準
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
編輯:Panda大?模型控制計算機果真就是未來方向?最近這幾天,讓大模型具備控制計算機(包括電腦和手機)的相關(guān)研究和應(yīng)用如雨后春筍般不斷涌現(xiàn)。
先是 Anthropic 發(fā)布了能控制計算機的新版 Claude 3.5 Sonnet,之后榮耀 MagicOS 9.0 來了個全局智能體,再然后,昨天智譜發(fā)布了具備「全棧式工具使用能力」的 AutoGLM,同時華為也公布了一項可讓 AI 像人類一樣操作手機的新研究成果 LiMAC。
很顯然,這股熱潮完全沒有要停息的意思。今天,有網(wǎng)友發(fā)現(xiàn)蘋果已經(jīng)默默發(fā)布了 Ferret-UI 的兩個實現(xiàn)版本(分別基于 Gemma 2B 和 Llama 8B),這是蘋果今年五月發(fā)布的一個可讓 AI 理解手機屏幕的技術(shù),詳情參閱《讓大模型理解手機屏幕,蘋果多模態(tài) Ferret-UI 用自然語言操控手機》。來自 X 用戶 Niels Rogge
Ferret-UI 項目地址:https://huggingface.co/papers/2404.05719
不僅如此,微軟也低調(diào)開源了他們的相關(guān)研究 OmniParser,這是一個基于大模型的屏幕解析工具,
原文鏈接:控制電腦手機的智能體人人都能造,微軟開源OmniParser
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號