AIGC動態歡迎閱讀
原標題:超越CVPR 2024方法,DynRefer在區域級多模態識別任務上,多項SOTA
關鍵字:區域,視圖,任務,分辨率,圖像
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心發布
機器之心編輯部為了實現高精度的區域級多模態理解,本文提出了一種動態分辨率方案來模擬人類視覺認知系統。本文作者來自于中國科學院大學LAMP實驗室,其中第一作者趙毓鐘是中國科學院大學的2023級博士生,共同一作劉峰是中國科學院大學2020級直博生。他們的主要研究方向是視覺語言模型和視覺目標感知。
簡介
DynRefer 通過模擬人類視覺認知過程,顯著提升了區域級多模態識別能力。通過引入人眼的動態分辨率機制,DynRefer 能夠以單個模型同時完成區域識別、區域屬性檢測和區域字幕生成(region-level captioning)任務,并在上述任務都取得 SOTA 性能。其中在 RefCOCOg 數據集的 region-level captioning 任務上取得了 115.7 CIDEr,顯著高于 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。論文標題:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
論文鏈接:
原文鏈接:超越CVPR 2024方法,DynRefer在區域級多模態識別任務上,多項SOTA
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...