蘋(píng)果大模型新進(jìn)展:發(fā)布 ReALM,視覺(jué)元素解析能力優(yōu)于 GPT-4

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:蘋(píng)果大模型新進(jìn)展:發(fā)布 ReALM,視覺(jué)元素解析能力優(yōu)于 GPT-4
關(guān)鍵字:報(bào)告,人工智能,模型,研究人員,蘋(píng)果
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):3482字
內(nèi)容摘要:
來(lái)源:AI 科技大本營(yíng)(ID:rgznai100)
整理:王軼群
被業(yè)內(nèi)普遍認(rèn)為在AI大語(yǔ)言模型上進(jìn)度緩慢的蘋(píng)果,終于有了AI系統(tǒng)新科研進(jìn)展!
蘋(píng)果研究人員開(kāi)發(fā)了一種新的人工智能系統(tǒng),可以理解屏幕上實(shí)體以及對(duì)話和背景上下文的模糊引用,從而實(shí)現(xiàn)與語(yǔ)音助手的更自然的交互。
3月29日,蘋(píng)果的研究人員發(fā)表一篇論文,蘋(píng)果研究人員詳細(xì)介紹了一種人工智能系統(tǒng),該系統(tǒng)可以解析對(duì)屏幕上顯示的元素的引用,在某些情況下,在給定屏幕截圖時(shí)比GPT-4更好。
該系統(tǒng)稱(chēng)為ReALM(Reference Resolution As Language Modeling,即參考解析作為語(yǔ)言建模),利用大型語(yǔ)言模型將參考解析的復(fù)雜任務(wù)(包括理解屏幕上視覺(jué)元素的引用)轉(zhuǎn)換為純語(yǔ)言建模問(wèn)題。與現(xiàn)有方法相比,這使得 ReALM能夠?qū)崿F(xiàn)顯著的性能提升。
蘋(píng)果研究人員團(tuán)隊(duì)寫(xiě)道:“能夠理解上下文,包括參考文獻(xiàn),對(duì)于對(duì)話助理來(lái)說(shuō)至關(guān)重要。”
增強(qiáng)會(huì)話助理
為了處理基于屏幕的引用,ReALM的一個(gè)關(guān)鍵創(chuàng)新在于——通過(guò)使用已解析的屏幕字符及其位置來(lái)重建屏顯,以生成捕獲視覺(jué)布局的文本表示。研究人員證明,這種方法與專(zhuān)門(mén)用于參考解析的微調(diào)語(yǔ)言
原文鏈接:蘋(píng)果大模型新進(jìn)展:發(fā)布 ReALM,視覺(jué)元素解析能力優(yōu)于 GPT-4
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)

粵公網(wǎng)安備 44011502001135號(hào)