AIGC動態歡迎閱讀
原標題:蘋果大模型新進展:發布 ReALM,視覺元素解析能力優于 GPT-4
關鍵字:報告,人工智能,模型,研究人員,蘋果
文章來源:人工智能學家
內容字數:3482字
內容摘要:
來源:AI 科技大本營(ID:rgznai100)
整理:王軼群
被業內普遍認為在AI大語言模型上進度緩慢的蘋果,終于有了AI系統新科研進展!
蘋果研究人員開發了一種新的人工智能系統,可以理解屏幕上實體以及對話和背景上下文的模糊引用,從而實現與語音助手的更自然的交互。
3月29日,蘋果的研究人員發表一篇論文,蘋果研究人員詳細介紹了一種人工智能系統,該系統可以解析對屏幕上顯示的元素的引用,在某些情況下,在給定屏幕截圖時比GPT-4更好。
該系統稱為ReALM(Reference Resolution As Language Modeling,即參考解析作為語言建模),利用大型語言模型將參考解析的復雜任務(包括理解屏幕上視覺元素的引用)轉換為純語言建模問題。與現有方法相比,這使得 ReALM能夠實現顯著的性能提升。
蘋果研究人員團隊寫道:“能夠理解上下文,包括參考文獻,對于對話助理來說至關重要。”
增強會話助理
為了處理基于屏幕的引用,ReALM的一個關鍵創新在于——通過使用已解析的屏幕字符及其位置來重建屏顯,以生成捕獲視覺布局的文本表示。研究人員證明,這種方法與專門用于參考解析的微調語言
原文鏈接:蘋果大模型新進展:發布 ReALM,視覺元素解析能力優于 GPT-4
聯系作者
文章來源:人工智能學家
作者微信:AItists
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...