提前對齊,視頻問答新SOTA!北大全新Video-LLaVA視覺語言大模型,秒懂視頻笑點
AIGC動態(tài)歡迎閱讀
原標題:提前對齊,視頻問答新SOTA!北大全新Video-LLaVA視覺語言大模型,秒懂視頻笑點
文章來源:新智元
內容字數(shù):4933字
內容摘要:新智元報道編輯:好困【新智元導讀】最近,來自北京大學等機構研究者提出了一種全新視覺語言大模型——Video-LLaVA,使得LLM能夠同時接收圖片和視頻為輸入。Video-LlaVA在下游任務中取得了卓越的性能,并在圖片、視頻的13個基準上達到先進的性能。這個結果表明,統(tǒng)一LLM的輸入能讓LLM的視覺理解能力提升。最近,來自北大的研究人員提出了一種全新的視覺語言大模型——Video-LLaVA,為alignment before projection提供了新穎的解決方案。與以往的視覺語言大模型不同,Video-LLaVA關注的是提前將圖片和視頻特征綁定到統(tǒng)一個特征空間,使LLM能夠從統(tǒng)一的視覺表示從學習模態(tài)的交互。此外,為了提高計算效率,Video-LLaVA還聯(lián)合了圖片和視頻進行訓練和指令微調。論文地址:https://arxiv.org/pdf/2310.01852.pdfGitHub…
原文鏈接:點此閱讀原文:提前對齊,視頻問答新SOTA!北大全新Video-LLaVA視覺語言大模型,秒懂視頻笑點
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...