港中文在讀博士李彥瑋：LLaMA-VID: 專注于長視頻理解的視覺語言大模型

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：港中文在讀博士李彥瑋：LLaMA-VID: 專注于長視頻理解的視覺語言大模型
關鍵字：模型,視覺,視頻,上下文,用戶
文章來源：算法邦
內容字數：2111字

內容摘要：

1月17日晚7點，智猩猩推出「多模態大模型線上閉門會」。本次閉門會由阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品，并聚焦于大語言模型工具調用 ControlLLM、長視頻理解視覺語言模型 LLaMA-VID和多模態文檔理解大模型 mPLUG-DocOwl，香港科技大學在讀博士劉兆洋、香港中文大學在讀博士李彥瑋和阿里巴巴通義實驗室高級算法工程師文束將參與主講。
其中，李彥瑋將圍繞主題《LLaMA-VID: 專注于長視頻理解的視覺語言大模型》進行直播講解。
本次分享主要介紹一種新提出的 LLaMA-VID 用于長視頻理解。在這項工作中，我們旨在解決視覺語言模型（VLM）中的長視頻 Token 生成負載。
當前的 VLM 在圖像字幕和視覺問答等任務中表現出色，但由于每幀需要過多的Token進行表示，難以支持幾個小時的長視頻理解。LLaMA-VID 通過使用兩個不同的 Token 來表示每一幀解決這個問題，即上下文 Token 和內容 Token。上下文 Token 基于用戶輸入編碼整體圖像上下文，而內容 Token 則封裝了每個幀中的視覺信息。這種策略顯著減少了長視頻的負載，同時保留

原文鏈接：港中文在讀博士李彥瑋：LLaMA-VID: 專注于長視頻理解的視覺語言大模型