CVPR 2024 | 擅長處理復雜場景和語言表達，清華&博世提出全新實例分割網絡架構MagNet

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：CVPR 2024 | 擅長處理復雜場景和語言表達，清華&博世提出全新實例分割網絡架構MagNet
關鍵字：圖像,語言,研究院,特征,算法
文章來源：機器之心
內容字數：6317字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。指代分割 (Referring Image Segmentation，RIS) 是一項極具挑戰性的多模態任務，要求算法能夠同時理解精細的人類語言和視覺圖像信息，并將圖像中句子所指代的物體進行像素級別的分割。RIS 技術的突破有望在人機交互、圖像編輯、自動駕駛等諸多領域帶來性變革。它能夠極大地提升人機協作的效率和體驗。盡管目前最先進的 RIS 算法已經取得了顯著進展，但仍然面臨著模態差異 (modality gap) 的問題，即圖像和文本特征的分布并未完全對齊。這一問題在處理復雜的指代語言表達和罕見語境時尤為突出。圖 1：細粒度語言 – 圖像對齊能力對 RIS 的重要性示意圖。紅色掩碼是目前最先進的 RIS 算法之一 LAVT 的預測結果，而黃色虛線框則是

原文鏈接：CVPR 2024 | 擅長處理復雜場景和語言表達，清華&博世提出全新實例分割網絡架構MagNet