大模型時代的藍海任務，GPT4V準確率不足10%，港科大發布指代理解基準RefCOCO

AIGC動態歡迎閱讀

原標題：大模型時代的藍海任務，GPT4V準確率不足10%，港科大發布指代理解基準RefCOCO
關鍵字：模型,基準,實例,類別,子集
文章來源：夕小瑤科技說
內容字數：0字

內容摘要：

夕小瑤科技說原創作者 | 謝年年談到多模態大模型的應用場景，除了生成任務以外，應用最廣泛的可能就是在圖像和視頻中進行目標檢測。
目標檢測要求從圖像中識別并標注出所有感興趣的對象，并給每個對象分配一個類別標簽。典型的目標檢測方生成邊界框，標記出圖像中每個目標的位置和類別，如人、車、動物等。
然而，今天我們要聊的并非僅限于對象類別的目標檢測，而是一個更具挑戰性的任務——Referring Expression Comprehension（REC），即指稱表達理解。REC側重于根據冗長且復雜的自然語言描述來精準定位并標記特定對象。
比如根據以下描述，標記圖中的對象：
這款淡綠色的長方形橡皮上繪有一只熊，旁邊用綠色寫著“橡皮”字樣。一層透明的帶有圖案的塑料覆蓋物部分包裹著它。在圖片的右下角，橡皮放在雜亂的桌子上，周圍是各種各樣的藝術材料和圖紙。
REC更強調根據特定的自然語言描述定位和標記目標，適用于需要通過語言與視覺信息交互的場景，也是目前多模態大模型領域研究較少的任務。
現在常用的評估基準一般有三個：RefCOCO（2015年）、RefCOCO+（2016年）和RefCOCOg（20

原文鏈接：大模型時代的藍海任務，GPT4V準確率不足10%，港科大發布指代理解基準RefCOCO

聯系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

閱讀原文