第一個結合SAM-2和LLaVA-like的視頻多模態大模型。
原標題:統一SAM2和LLaVA!字節豆包提出Dense Video多模態大模型Sa2VA
文章來源:機器之心
內容字數:8977字
Sa2VA:首個結合SAM-2和LLaVA-like的視頻多模態大模型
本文介紹了來自字節跳動、北京大學等機構研究者提出的Sa2VA模型,這是市面上第一個結合SAM-2和LLaVA-like架構的視頻多模態大模型。Sa2VA整合了SAM-2的感知能力和LLaVA的推理能力,實現了時空細粒度的視頻理解,并在多個視頻和圖像理解任務上取得了領先效果。
1. 研究背景和動機
近年來,多模態大語言模型取得了顯著進展,能夠支持圖像對話、視頻對話等多種任務。然而,現有模型在細粒度圖像和視頻理解方面存在不足:感知模型缺乏自然語言推理能力,而多模態大語言模型缺乏感知能力,特別是視頻分割能力。Sa2VA旨在結合兩者的優勢,構建一個統一的模型,支持圖像、視頻細粒度感知以及對話、分析等任務。
2. 模型設計與實現
Sa2VA的核心設計理念是將所有輸入(文本、視覺提示、圖像、視頻)統一編碼為令牌,進行聯合訓練。模型主要包含兩部分:多模態大語言模型和SAM-2模型。多模態大語言模型負責處理文本和視覺信息,SAM-2模型負責分割任務。兩者通過“[SEG]”令牌連接,實現信息的交互和傳遞。對于視頻指代分割,Sa2VA利用關鍵幀和SAM-2的記憶編碼器實現高效的跟蹤和分割。
3. 訓練方法
Sa2VA采用統一的指令微調格式,整合了圖像和視頻Referring Expression Segmentation (RES)、Visual Question Answering (VQA)、Grounded Conversation Generation (GCG)等多種任務,并使用不同的損失函數進行聯合訓練。得益于預訓練的多模態大語言模型,Sa2VA無需額外的預訓練階段。
4. Ref-SAM-v Benchmark
研究者還提出了一個新的Benchmark,Ref-SAM-2v,以及對應的訓練數據集,該數據集相比于之前的Ref-VOS數據集更具挑戰性。
5. 數值結果與可視化
Sa2VA在13個公開數據集上的5個不同任務中取得了領先的結果,并在提出的Ref-SAM-v benchmark上也大幅領先現有工作??梢暬Y果展示了Sa2VA在圖像和視頻字幕生成、對話、指代對象分割、GCG、視覺指代物體描述等任務上的出色性能,并能擴展到開放場景。
6. 總結
Sa2VA 通過巧妙地結合SAM-2和LLaVA-like模型的優勢,并采用創新的訓練方法,在視頻多模態理解領域取得了突破性進展。其在細粒度視頻理解和多種下游任務上的優異表現,為未來多模態大模型的發展提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺