超越CVPR 2024方法,DynRefer在區(qū)域級(jí)多模態(tài)識(shí)別任務(wù)上,多項(xiàng)SOTA
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:超越CVPR 2024方法,DynRefer在區(qū)域級(jí)多模態(tài)識(shí)別任務(wù)上,多項(xiàng)SOTA
關(guān)鍵字:區(qū)域,視圖,任務(wù),分辨率,圖像
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心發(fā)布
機(jī)器之心編輯部為了實(shí)現(xiàn)高精度的區(qū)域級(jí)多模態(tài)理解,本文提出了一種動(dòng)態(tài)分辨率方案來(lái)模擬人類視覺(jué)認(rèn)知系統(tǒng)。本文作者來(lái)自于中國(guó)科學(xué)院大學(xué)LAMP實(shí)驗(yàn)室,其中第一作者趙毓鐘是中國(guó)科學(xué)院大學(xué)的2023級(jí)博士生,共同一作劉峰是中國(guó)科學(xué)院大學(xué)2020級(jí)直博生。他們的主要研究方向是視覺(jué)語(yǔ)言模型和視覺(jué)目標(biāo)感知。
簡(jiǎn)介
DynRefer 通過(guò)模擬人類視覺(jué)認(rèn)知過(guò)程,顯著提升了區(qū)域級(jí)多模態(tài)識(shí)別能力。通過(guò)引入人眼的動(dòng)態(tài)分辨率機(jī)制,DynRefer 能夠以單個(gè)模型同時(shí)完成區(qū)域識(shí)別、區(qū)域?qū)傩詸z測(cè)和區(qū)域字幕生成(region-level captioning)任務(wù),并在上述任務(wù)都取得 SOTA 性能。其中在 RefCOCOg 數(shù)據(jù)集的 region-level captioning 任務(wù)上取得了 115.7 CIDEr,顯著高于 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。論文標(biāo)題:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
論文鏈接:
原文鏈接:超越CVPR 2024方法,DynRefer在區(qū)域級(jí)多模態(tài)識(shí)別任務(wù)上,多項(xiàng)SOTA
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)