蘋(píng)果大模型新進(jìn)展：發(fā)布 ReALM，視覺(jué)元素解析能力優(yōu)于 GPT-4

AIGC動(dòng)態(tài)2年前 (2024)發(fā)布人工智能學(xué)家

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：蘋(píng)果大模型新進(jìn)展：發(fā)布 ReALM，視覺(jué)元素解析能力優(yōu)于 GPT-4
關(guān)鍵字：報(bào)告,人工智能,模型,研究人員,蘋(píng)果
文章來(lái)源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：3482字

內(nèi)容摘要：

來(lái)源：AI 科技大本營(yíng)（ID：rgznai100）
整理：王軼群
被業(yè)內(nèi)普遍認(rèn)為在AI大語(yǔ)言模型上進(jìn)度緩慢的蘋(píng)果，終于有了AI系統(tǒng)新科研進(jìn)展！
蘋(píng)果研究人員開(kāi)發(fā)了一種新的人工智能系統(tǒng)，可以理解屏幕上實(shí)體以及對(duì)話和背景上下文的模糊引用，從而實(shí)現(xiàn)與語(yǔ)音助手的更自然的交互。
3月29日，蘋(píng)果的研究人員發(fā)表一篇論文，蘋(píng)果研究人員詳細(xì)介紹了一種人工智能系統(tǒng)，該系統(tǒng)可以解析對(duì)屏幕上顯示的元素的引用，在某些情況下，在給定屏幕截圖時(shí)比GPT-4更好。
該系統(tǒng)稱(chēng)為ReALM（Reference Resolution As Language Modeling，即參考解析作為語(yǔ)言建模），利用大型語(yǔ)言模型將參考解析的復(fù)雜任務(wù)（包括理解屏幕上視覺(jué)元素的引用）轉(zhuǎn)換為純語(yǔ)言建模問(wèn)題。與現(xiàn)有方法相比，這使得 ReALM能夠?qū)崿F(xiàn)顯著的性能提升。
蘋(píng)果研究人員團(tuán)隊(duì)寫(xiě)道：“能夠理解上下文，包括參考文獻(xiàn)，對(duì)于對(duì)話助理來(lái)說(shuō)至關(guān)重要。”
增強(qiáng)會(huì)話助理
為了處理基于屏幕的引用，ReALM的一個(gè)關(guān)鍵創(chuàng)新在于——通過(guò)使用已解析的屏幕字符及其位置來(lái)重建屏顯，以生成捕獲視覺(jué)布局的文本表示。研究人員證明，這種方法與專(zhuān)門(mén)用于參考解析的微調(diào)語(yǔ)言

原文鏈接：蘋(píng)果大模型新進(jìn)展：發(fā)布 ReALM，視覺(jué)元素解析能力優(yōu)于 GPT-4