讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態(tài)分割新方法 | ECCV2024

AIGC動態(tài)歡迎閱讀
原標(biāo)題:讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態(tài)分割新方法 | ECCV2024
關(guān)鍵字:顯著特征,表達式,對象,子集,時序
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
中國人民大學(xué)王耀霆 投稿量子位 | 公眾號 QbitAI讓AI像人類一樣借助多模態(tài)線索定位感興趣的物體,有新招了!
來自人大高瓴GeWu-Lab、北郵、上海AI Lab等機構(gòu)的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽場景下的指代分割),讓AI能看、會聽,更懂真實物理世界。
相關(guān)論文已入選頂會ECCV2024。
舉個例子,在下面這張圖中,機器如何準(zhǔn)確定位真正在演奏樂器的人?
搞單打獨斗肯定不行,但這正是已有研究正在做的。(各自從視覺、文本和音頻線索的角度出發(fā))
視頻對象分割(VOS,Video Object Segmentation):通常以第一幀中的對象掩碼作為參考,指導(dǎo)后續(xù)幀中特定對象的分割。(嚴(yán)重依賴于第一幀的精確標(biāo)注)
視頻對象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語言描述分割視頻中的物體,取代了VOS中的掩碼標(biāo)注。(雖然更易于訪問,但能力有限)
視聽分割(AVS,Audio-Visual Segmentation):以音
原文鏈接:讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態(tài)分割新方法 | ECCV2024
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號