AIGC動態歡迎閱讀
原標題:GPT-4結合SAM2:免訓練多模態分割的全新解決方案!| 已開源
關鍵字:關鍵,對象,方法,音頻,類別
文章來源:量子位
內容字數:0字
內容摘要:
北京航空航天大學 李紅羽 投稿 凹非寺量子位 | 公眾號 QbitAI免訓練多模態分割領域有了新突破!
中科院信工所、北航、合工大、美團等單位聯合提出了一種名為AL-Ref-SAM 2的方法。
這種方法利用GPT-4和SAM-2來統一多模態分割,讓系統在免訓練的情況下,也能擁有不亞于全監督微調的性能!
≥ 全監督方法多模態分割主要有兩種方法:一種是依據文字描述找到視頻中特定對象的分割方法(RVOS),另一種是通過聲音識別視頻中發聲對象的方法(AVS)。
免訓練的多模態視頻指代分割雖然在數據和訓練成本上有較大優勢,卻由于缺乏在特定任務數據上針對性的模型參數調整,導致性能與全監督方法有較大差距。
而研究團隊要解決的就是這個問題。
實驗中,他們對多個RVOS基準數據集進行了廣泛驗證,包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS,同時在AVSBench的多個子集上也進行了測試。
最后的實驗結果顯示,AL-Ref-SAL 2在這些數據集上的表現不僅優于其他無需訓練和弱監督的方法,并且甚至在一定情況下,系統的性能可以與全監督方法相媲美。
特別是在Ref-YouTube-V
原文鏈接:GPT-4結合SAM2:免訓練多模態分割的全新解決方案!| 已開源
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...