提前對齊，視頻問答新SOTA！北大全新Video-LLaVA視覺語言大模型，秒懂視頻笑點

AIGC動態2年前 (2023)發布新智元

AIGC動態歡迎閱讀

原標題：提前對齊，視頻問答新SOTA！北大全新Video-LLaVA視覺語言大模型，秒懂視頻笑點

關鍵字：視覺,圖片,視頻,解讀,模型

文章來源：新智元

內容字數：4933字

內容摘要：新智元報道編輯：好困【新智元導讀】最近，來自北京大學等機構研究者提出了一種全新視覺語言大模型——Video-LLaVA，使得LLM能夠同時接收圖片和視頻為輸入。Video-LlaVA在下游任務中取得了卓越的性能，并在圖片、視頻的13個基準上達到先進的性能。這個結果表明，統一LLM的輸入能讓LLM的視覺理解能力提升。最近，來自北大的研究人員提出了一種全新的視覺語言大模型——Video-LLaVA，為alignment before projection提供了新穎的解決方案。與以往的視覺語言大模型不同，Video-LLaVA關注的是提前將圖片和視頻特征綁定到統一個特征空間，使LLM能夠從統一的視覺表示從學習模態的交互。此外，為了提高計算效率，Video-LLaVA還聯合了圖片和視頻進行訓練和指令微調。論文地址：https://arxiv.org/pdf/2310.01852.pdfGitHub…

原文鏈接：點此閱讀原文：提前對齊，視頻問答新SOTA！北大全新Video-LLaVA視覺語言大模型，秒懂視頻笑點