大模型時(shí)代的藍(lán)海任務(wù),GPT4V準(zhǔn)確率不足10%,港科大發(fā)布指代理解基準(zhǔn)RefCOCO
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型時(shí)代的藍(lán)海任務(wù),GPT4V準(zhǔn)確率不足10%,港科大發(fā)布指代理解基準(zhǔn)RefCOCO
關(guān)鍵字:模型,基準(zhǔn),實(shí)例,類別,子集
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年談到多模態(tài)大模型的應(yīng)用場(chǎng)景,除了生成任務(wù)以外,應(yīng)用最廣泛的可能就是在圖像和視頻中進(jìn)行目標(biāo)檢測(cè)。
目標(biāo)檢測(cè)要求從圖像中識(shí)別并標(biāo)注出所有感興趣的對(duì)象,并給每個(gè)對(duì)象分配一個(gè)類別標(biāo)簽。典型的目標(biāo)檢測(cè)方生成邊界框,標(biāo)記出圖像中每個(gè)目標(biāo)的位置和類別,如人、車、動(dòng)物等。
然而,今天我們要聊的并非僅限于對(duì)象類別的目標(biāo)檢測(cè),而是一個(gè)更具挑戰(zhàn)性的任務(wù)——Referring Expression Comprehension(REC),即指稱表達(dá)理解。REC側(cè)重于根據(jù)冗長(zhǎng)且復(fù)雜的自然語(yǔ)言描述來(lái)精準(zhǔn)定位并標(biāo)記特定對(duì)象。
比如根據(jù)以下描述,標(biāo)記圖中的對(duì)象:
這款淡綠色的長(zhǎng)方形橡皮上繪有一只熊,旁邊用綠色寫(xiě)著“橡皮”字樣。一層透明的帶有圖案的塑料覆蓋物部分包裹著它。在圖片的右下角,橡皮放在雜亂的桌子上,周圍是各種各樣的藝術(shù)材料和圖紙。
REC更強(qiáng)調(diào)根據(jù)特定的自然語(yǔ)言描述定位和標(biāo)記目標(biāo),適用于需要通過(guò)語(yǔ)言與視覺(jué)信息交互的場(chǎng)景,也是目前多模態(tài)大模型領(lǐng)域研究較少的任務(wù)。
現(xiàn)在常用的評(píng)估基準(zhǔn)一般有三個(gè):RefCOCO(2015年)、RefCOCO+(2016年)和RefCOCOg(20
原文鏈接:大模型時(shí)代的藍(lán)海任務(wù),GPT4V準(zhǔn)確率不足10%,港科大發(fā)布指代理解基準(zhǔn)RefCOCO
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬(wàn)AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189