国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

讓AI更懂物理世界！人大北郵上海AI Lab等提出多模態分割新方法 | ECCV2024

AIGC動態1年前 (2024)發布量子位

讓AI更懂物理世界！人大北郵上海AI Lab等提出多模態分割新方法 | ECCV2024

AIGC動態歡迎閱讀

原標題：讓AI更懂物理世界！人大北郵上海AI Lab等提出多模態分割新方法 | ECCV2024
關鍵字：顯著特征,表達式,對象,子集,時序
文章來源：量子位
內容字數：0字

內容摘要：

中國人民大學王耀霆投稿量子位 | 公眾號 QbitAI讓AI像人類一樣借助多模態線索定位感興趣的物體，有新招了！
來自人大高瓴GeWu-Lab、北郵、上海AI Lab等機構的研究人員提出Ref-AVS（Refer and Segment Objects in Audio-Visual Scenes，視聽場景下的指代分割），讓AI能看、會聽，更懂真實物理世界。
相關論文已入選頂會ECCV2024。
舉個例子，在下面這張圖中，機器如何準確定位真正在演奏樂器的人？
搞單打獨斗肯定不行，但這正是已有研究正在做的。（各自從視覺、文本和音頻線索的角度出發）
視頻對象分割（VOS，Video Object Segmentation）：通常以第一幀中的對象掩碼作為參考，指導后續幀中特定對象的分割。（嚴重依賴于第一幀的精確標注）
視頻對象參考分割（Ref-VOS，Referring Video Object Segmentation）：基于自然語言描述分割視頻中的物體，取代了VOS中的掩碼標注。（雖然更易于訪問，但能力有限）
視聽分割（AVS，Audio-Visual Segmentation）：以音

原文鏈接：讓AI更懂物理世界！人大北郵上海AI Lab等提出多模態分割新方法 | ECCV2024