7B最強長視頻模型! LongVA視頻理解超千幀,霸榜多個榜單
AIGC動態(tài)歡迎閱讀
原標(biāo)題:7B最強長視頻模型! LongVA視頻理解超千幀,霸榜多個榜單
關(guān)鍵字:視頻,模型,騰訊,長上,南洋
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文主要作者來自 LMMs-Lab 團隊與新加坡南洋理工大學(xué)。共同一作中,張培源是南洋理工大學(xué)研究助理,張愷宸是南洋理工大學(xué)四年級本科生,李博為南洋理工大學(xué)三年級博士生,指導(dǎo)教師為 MMLab@NTU 劉子緯教授。LMMs-Lab 是一個由學(xué)生、研究人員和教師組成的團隊,致力于多模態(tài)模型的研究,主要研究方向包括多模態(tài)模型的訓(xùn)練與全面評估,此前的工作包括多模態(tài)測評框架 lmms-eval 等。
為什么說理解長視頻難如 “大海撈針”?
現(xiàn)有的 LMMs 在處理長視頻時面臨的一個主要挑戰(zhàn)是視覺 token 數(shù)量過多。比如,LLaVA-1.6 對單張圖片就能生成 576 到 2880 個視覺 token。視頻幀數(shù)越多,token 數(shù)量也就更多。雖然 BLIP2,LLa
原文鏈接:7B最強長視頻模型! LongVA視頻理解超千幀,霸榜多個榜單
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺