AIGC動態歡迎閱讀
原標題:大模型時代的藍海任務,GPT4V準確率不足10%,港科大發布指代理解基準RefCOCO
關鍵字:模型,基準,實例,類別,子集
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年談到多模態大模型的應用場景,除了生成任務以外,應用最廣泛的可能就是在圖像和視頻中進行目標檢測。
目標檢測要求從圖像中識別并標注出所有感興趣的對象,并給每個對象分配一個類別標簽。典型的目標檢測方生成邊界框,標記出圖像中每個目標的位置和類別,如人、車、動物等。
然而,今天我們要聊的并非僅限于對象類別的目標檢測,而是一個更具挑戰性的任務——Referring Expression Comprehension(REC),即指稱表達理解。REC側重于根據冗長且復雜的自然語言描述來精準定位并標記特定對象。
比如根據以下描述,標記圖中的對象:
這款淡綠色的長方形橡皮上繪有一只熊,旁邊用綠色寫著“橡皮”字樣。一層透明的帶有圖案的塑料覆蓋物部分包裹著它。在圖片的右下角,橡皮放在雜亂的桌子上,周圍是各種各樣的藝術材料和圖紙。
REC更強調根據特定的自然語言描述定位和標記目標,適用于需要通過語言與視覺信息交互的場景,也是目前多模態大模型領域研究較少的任務。
現在常用的評估基準一般有三個:RefCOCO(2015年)、RefCOCO+(2016年)和RefCOCOg(20
原文鏈接:大模型時代的藍海任務,GPT4V準確率不足10%,港科大發布指代理解基準RefCOCO
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189