<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Video-XL

        AI工具6個月前發(fā)布 AI工具集
        1,100 0 0

        Video-XL是一款由北京智源人工智能研究院與上海交通大學(xué)、中國人民大學(xué)、中科院、北京郵電大學(xué)和北京大學(xué)的研究人員聯(lián)合研發(fā)的超長視頻理解模型,專為處理小時級別的視頻內(nèi)容而設(shè)計。其獨特的視覺上下文潛在總結(jié)技術(shù)能夠?qū)?fù)雜的視覺信息壓縮為精簡形式,從而提升處理效率并減少信息損失。在多項長視頻理解基準(zhǔn)測試中,Video-XL的表現(xiàn)尤為突出,準(zhǔn)確率在VNBench測試中領(lǐng)先現(xiàn)有最佳技術(shù)近10%。在單個80GB GPU上處理2048幀視頻時,準(zhǔn)確率接近95%。Video-XL在效率與效果之間達(dá)成了良好的平衡,展現(xiàn)了在長視頻特定任務(wù)中的廣泛應(yīng)用潛力,例如電影總結(jié)、監(jiān)控異常檢測和廣告投放識別。

        Video-XL是什么

        Video-XL是一種專為小時級視頻理解而研發(fā)的超長視覺理解模型,由北京智源人工智能研究院與多所知名高校和研究機構(gòu)聯(lián)合推出。通過視覺上下文潛在總結(jié)技術(shù),Video-XL能夠?qū)⒋罅恳曈X信息壓縮為更為緊湊的形式,從而提升模型的處理效率,并減少信息的丟失。在多項長視頻理解的基準(zhǔn)測試中,該模型表現(xiàn)優(yōu)異,尤其是在VNBench測試中,其準(zhǔn)確率超越現(xiàn)有最佳方法近10%。在單個80GB GPU上,Video-XL能夠處理2048幀視頻,準(zhǔn)確率接近95%。該模型在長視頻特定任務(wù),如電影總結(jié)、監(jiān)控異常檢測和廣告投放識別等方面展現(xiàn)了廣泛的應(yīng)用潛力。

        Video-XL

        Video-XL的主要功能

        • 小時級視頻理解:能夠處理非常長的視頻內(nèi)容,進(jìn)行深入的理解與分析。
        • 視覺壓縮技術(shù):利用視覺上下文潛在總結(jié)技術(shù),將大量的視覺信息壓縮為緊湊的形式,以適應(yīng)模型的處理能力。
        • 高效計算能力:在保持高準(zhǔn)確率的同時,顯著降低計算資源的消耗,使得在單個GPU上處理大量視頻幀成為可能。
        • 多模態(tài)數(shù)據(jù)處理:支持單圖像、多圖像和視頻等多種數(shù)據(jù)類型的處理。
        • 長視頻特定任務(wù)處理:特別適用于電影總結(jié)、監(jiān)控異常檢測和廣告投放識別等長視頻相關(guān)任務(wù)。

        Video-XL的技術(shù)原理

        • 視覺上下文潛在總結(jié)(Visual Context Latent Summarization):引入視覺總結(jié)標(biāo)記(VSTs),有效壓縮原始視覺上下文的激活(如自注意力模塊中的鍵和值),形成緊湊的表示。
        • 分塊處理機制:將視覺標(biāo)記序列分割為相同大小的塊,在每個塊中插入VSTs,利用LLM逐步壓縮視覺信號。
        • 自回歸編碼方法:在編碼每個塊時,Video-XL重用所有模塊轉(zhuǎn)換的VST隱藏狀態(tài),并結(jié)合額外的投影矩陣,將視覺信號的信息壓縮到VST的激活中。
        • 統(tǒng)一視覺編碼方案:將單圖像、多圖像和視頻統(tǒng)一編碼到同一空間,以處理不同的多模態(tài)數(shù)據(jù)。
        • 長視頻數(shù)據(jù)集(VICO):專門開發(fā)新的長視頻數(shù)據(jù)集,以處理更長的視頻及動態(tài)視覺上下文,增強模型的長視頻理解能力。

        Video-XL的官方網(wǎng)站

        Video-XL的應(yīng)用場景

        • 電影和視頻內(nèi)容總結(jié):Video-XL能夠理解和總結(jié)長視頻的核心內(nèi)容,提供簡潔的概述,幫助用戶快速把握主要情節(jié)和。
        • 視頻監(jiān)控分析:在安全監(jiān)控領(lǐng)域,Video-XL可用于異常行為檢測,以識別監(jiān)控視頻中的不尋?;蚧顒印?/li>
        • 廣告投放與效果分析:該模型幫助分析視頻中的廣告投放效果,理解廣告與視頻內(nèi)容的關(guān)系,以及觀眾的反應(yīng)。
        • 教育與培訓(xùn)視頻:在教育領(lǐng)域,Video-XL能夠理解和總結(jié)長時間的教學(xué)視頻,幫助學(xué)生快速掌握課程要點。
        • 視頻內(nèi)容檢索:可在視頻數(shù)據(jù)庫中進(jìn)行內(nèi)容檢索,幫助用戶迅速找到關(guān)鍵片段或相關(guān)信息。

        常見問題

        • Video-XL支持哪些類型的視頻處理? Video-XL可以處理單圖像、多圖像和長視頻的內(nèi)容。
        • 如何獲取Video-XL的模型和代碼? 用戶可以訪問其GitHub倉庫和HuggingFace模型庫下載相關(guān)資源。
        • Video-XL在長視頻理解中具有哪些優(yōu)勢? 該模型在準(zhǔn)確率和計算效率上均表現(xiàn)出色,適合處理復(fù)雜的長視頻任務(wù)。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲中文字幕久在线| 无码人妻精品中文字幕免费东京热| 亚洲日韩精品一区二区三区无码| 日日AV拍夜夜添久久免费| 一个人看的www免费高清| 亚洲中文字幕无码中文| 亚洲福利视频网址| 在线看免费观看AV深夜影院| 中文在线日本免费永久18近| 亚洲a∨无码一区二区| 亚洲人成毛片线播放| 久久精品国产精品亚洲毛片| 精品亚洲永久免费精品| 亚洲国产精品成人| 日韩免费一级毛片| 成人性生活免费视频| 五月婷婷综合免费| 1000部夫妻午夜免费| 中国xxxxx高清免费看视频| 久9这里精品免费视频| 亚洲AV无码国产一区二区三区| 免费少妇a级毛片人成网| 久久久久成人片免费观看蜜芽| 亚洲成人激情小说| 亚洲人成黄网在线观看| 亚洲电影中文字幕| 久久久久亚洲AV片无码| 亚洲国产精品高清久久久| 中文亚洲AV片不卡在线观看| 在线观看亚洲成人| 亚洲综合无码精品一区二区三区| 成人免费黄色网址| 亚洲免费二区三区| 久久久久久夜精品精品免费啦| 亚洲av永久无码精品秋霞电影秋| 亚洲中文字幕久久精品无码喷水 | 最近2019中文免费字幕| 曰曰鲁夜夜免费播放视频| 成人免费视频网站www| 男男AV纯肉无码免费播放无码 | 一个人免费高清在线观看|