一張顯卡看遍天下電影！智源聯(lián)合高校開源Video-XL打破長視頻理解極限，95%準確率刷爆紀錄

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：一張顯卡看遍天下電影！智源聯(lián)合高校開源Video-XL打破長視頻理解極限，95%準確率刷爆紀錄
關(guān)鍵字：視頻,模型,視覺,數(shù)據(jù),能力
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：編輯部 HYZ
【新智元導(dǎo)讀】長視頻理解迎來新紀元！智源聯(lián)手國內(nèi)多所頂尖高校，推出了超長視頻理解大模型Video-XL。僅用一張80G顯卡處理小時級視頻，未來AI看懂電影再也不是難事。長視頻理解是多模態(tài)大模型的核心能力之一，也是邁向通用人工智能（AGI）的關(guān)鍵一步。然而，現(xiàn)有的多模態(tài)大模型在處理10分鐘以上的超長視頻時，仍然面臨性能差和效率低的雙重挑戰(zhàn)。
對此，智源研究院聯(lián)合上海交通大學(xué)、中國人民大學(xué)、北京大學(xué)和北京郵電大學(xué)等多所高校，推出了小時級的超長視頻理解大模型Video-XL。
Video-XL借助語言模型（LLM）的原生能力對長視覺序列進行壓縮，不僅保留了短視頻理解的能力，而且在長視頻理解上展現(xiàn)了出色的泛化能力。
Video-XL相較于同等參數(shù)規(guī)模的模型，在多個主流長視頻理解基準評測的多項任務(wù)中排名第一。
此外，Video-XL在效率與性能之間實現(xiàn)了良好的平衡，僅需一塊80G顯存的顯卡即可處理2048幀輸入（對小時級長度視頻采樣），并在視頻「大海撈針」任務(wù)中取得了接近95%的準確率。
僅需幾秒鐘，VideoXL便可以準確檢索長視頻中植入的廣告內(nèi)容（https

原文鏈接：一張顯卡看遍天下電影！智源聯(lián)合高校開源Video-XL打破長視頻理解極限，95%準確率刷爆紀錄