蘋果大模型新進(jìn)展:發(fā)布 ReALM,視覺元素解析能力優(yōu)于 GPT-4
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:蘋果大模型新進(jìn)展:發(fā)布 ReALM,視覺元素解析能力優(yōu)于 GPT-4
關(guān)鍵字:報(bào)告,人工智能,模型,研究人員,蘋果
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):3482字
內(nèi)容摘要:
來(lái)源:AI 科技大本營(yíng)(ID:rgznai100)
整理:王軼群
被業(yè)內(nèi)普遍認(rèn)為在AI大語(yǔ)言模型上進(jìn)度緩慢的蘋果,終于有了AI系統(tǒng)新科研進(jìn)展!
蘋果研究人員開發(fā)了一種新的人工智能系統(tǒng),可以理解屏幕上實(shí)體以及對(duì)話和背景上下文的模糊引用,從而實(shí)現(xiàn)與語(yǔ)音助手的更自然的交互。
3月29日,蘋果的研究人員發(fā)表一篇論文,蘋果研究人員詳細(xì)介紹了一種人工智能系統(tǒng),該系統(tǒng)可以解析對(duì)屏幕上顯示的元素的引用,在某些情況下,在給定屏幕截圖時(shí)比GPT-4更好。
該系統(tǒng)稱為ReALM(Reference Resolution As Language Modeling,即參考解析作為語(yǔ)言建模),利用大型語(yǔ)言模型將參考解析的復(fù)雜任務(wù)(包括理解屏幕上視覺元素的引用)轉(zhuǎn)換為純語(yǔ)言建模問題。與現(xiàn)有方法相比,這使得 ReALM能夠?qū)崿F(xiàn)顯著的性能提升。
蘋果研究人員團(tuán)隊(duì)寫道:“能夠理解上下文,包括參考文獻(xiàn),對(duì)于對(duì)話助理來(lái)說(shuō)至關(guān)重要。”
增強(qiáng)會(huì)話助理
為了處理基于屏幕的引用,ReALM的一個(gè)關(guān)鍵創(chuàng)新在于——通過使用已解析的屏幕字符及其位置來(lái)重建屏顯,以生成捕獲視覺布局的文本表示。研究人員證明,這種方法與專門用于參考解析的微調(diào)語(yǔ)言
原文鏈接:蘋果大模型新進(jìn)展:發(fā)布 ReALM,視覺元素解析能力優(yōu)于 GPT-4
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)