AIGC動態歡迎閱讀
原標題:7B最強長視頻模型! LongVA視頻理解超千幀,霸榜多個榜單
關鍵字:視頻,模型,騰訊,長上,南洋
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文主要作者來自 LMMs-Lab 團隊與新加坡南洋理工大學。共同一作中,張培源是南洋理工大學研究助理,張愷宸是南洋理工大學四年級本科生,李博為南洋理工大學三年級博士生,指導教師為 MMLab@NTU 劉子緯教授。LMMs-Lab 是一個由學生、研究人員和教師組成的團隊,致力于多模態模型的研究,主要研究方向包括多模態模型的訓練與全面評估,此前的工作包括多模態測評框架 lmms-eval 等。
為什么說理解長視頻難如 “大海撈針”?
現有的 LMMs 在處理長視頻時面臨的一個主要挑戰是視覺 token 數量過多。比如,LLaVA-1.6 對單張圖片就能生成 576 到 2880 個視覺 token。視頻幀數越多,token 數量也就更多。雖然 BLIP2,LLa
原文鏈接:7B最強長視頻模型! LongVA視頻理解超千幀,霸榜多個榜單
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...