AIGC動態歡迎閱讀
原標題:讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態分割新方法 | ECCV2024
關鍵字:顯著特征,表達式,對象,子集,時序
文章來源:量子位
內容字數:0字
內容摘要:
中國人民大學王耀霆 投稿量子位 | 公眾號 QbitAI讓AI像人類一樣借助多模態線索定位感興趣的物體,有新招了!
來自人大高瓴GeWu-Lab、北郵、上海AI Lab等機構的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽場景下的指代分割),讓AI能看、會聽,更懂真實物理世界。
相關論文已入選頂會ECCV2024。
舉個例子,在下面這張圖中,機器如何準確定位真正在演奏樂器的人?
搞單打獨斗肯定不行,但這正是已有研究正在做的。(各自從視覺、文本和音頻線索的角度出發)
視頻對象分割(VOS,Video Object Segmentation):通常以第一幀中的對象掩碼作為參考,指導后續幀中特定對象的分割。(嚴重依賴于第一幀的精確標注)
視頻對象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語言描述分割視頻中的物體,取代了VOS中的掩碼標注。(雖然更易于訪問,但能力有限)
視聽分割(AVS,Audio-Visual Segmentation):以音
原文鏈接:讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態分割新方法 | ECCV2024
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...