<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        達摩院開源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩

        AIGC動態5個月前發布 量子位
        322 0 0

        還有2B的圖像理解模型

        達摩院開源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩

        原標題:達摩院開源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩
        文章來源:量子位
        內容字數:6118字

        達摩院發布7B參數視頻理解模型VideoLLaMA 3:圖像為中心,性能超越基線

        達摩院最新發布的7B參數視頻理解模型VideoLLaMA 3,在通用視頻理解、時間推理和長視頻理解等方面取得了顯著成果,超越了多數基線模型。更值得關注的是,其2B參數版本在圖像理解方面也表現出色。

        1. 核心優勢:圖像為中心的多模態模型

        VideoLLaMA 3的核心創新在于其“圖像為中心”的設計理念。該理念貫穿模型架構和訓練過程,通過高質量的圖像文本數據為視頻理解奠定堅實基礎。僅使用3M視頻文本數據,就實現了全面超越同參數量開源模型的視頻理解能力。這種高效的訓練方式,得益于其獨特的訓練范式,主要包含四個關鍵內容:

        1. 視覺編碼器適配: 能夠處理動態分辨率圖像,并利用不同場景圖像提升性能,捕捉精細視覺細節。

        2. 視覺語言對齊: 利用豐富圖像文本數據,增強多模態理解能力,并通過數據增強提升空間推理能力。

        3. 多任務微調: 利用圖像文本問答數據和視頻字幕數據微調模型,提升其遵循自然語言指令和多模態理解能力。

        4. 視頻微調: 增強模型視頻理解和問答能力,訓練數據包含多種視頻及圖像、文本數據。

        2. 技術創新:高效的模型架構

        VideoLLaMA 3的模型架構包含兩個關鍵創新:

        1. 任意分辨率視覺標記化(AVT):突破傳統固定分辨率限制,采用2D-RoPE替換絕對位置嵌入,能夠處理不同分辨率圖像和視頻,保留更多細節。

        2. 差分幀剪枝器(DiffFP):針對視頻數據冗余問題,通過比較相鄰幀像素空間的1-范數距離,修剪冗余視頻標記,提高視頻處理效率,減少計算需求。

        3. 高質量數據:精細的數據處理流程

        VideoLLaMA 3的成功也離不開高質量數據的支持。團隊構建了包含700萬圖像-字幕對的VL3Syn7M數據集,并進行了多步驟的數據清洗和增強,包括長寬比過濾、美學評分過濾、文本-圖像相似度計算、視覺特征聚類和圖像重新標注等。此外,團隊還采用了多階段數據混合策略,為模型提供豐富多樣的學習場景。

        4. 實際應用及效果展示

        VideoLLaMA 3已經在HuggingFace上提供圖像和視頻理解的demo。用戶只需上傳圖片或視頻,并提出問題,即可獲得精準的回答。例如,針對《蒙娜麗莎的微笑》的提問,模型能夠給出其歷史影響和藝術意義的詳細闡述;針對視頻中熊吃壽司的場景,模型能夠準確識別其不尋常之處。

        5. 總結

        VideoLLaMA 3憑借其圖像為中心的設計理念、高效的模型架構和高質量的數據,在視頻理解領域取得了顯著進展。其在HuggingFace上的公開demo也方便了用戶體驗和應用,為多模態模型的發展提供了新的方向。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破


        Warning: Undefined variable $sitetitle in /www/wwwroot/www.futurefh.com/wp-content/themes/OneNav-openi/inc/functions/io-single-post.php on line 91

        Warning: Undefined variable $a_class in /www/wwwroot/www.futurefh.com/wp-content/themes/OneNav-openi/inc/functions/io-single-post.php on line 91
        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日本一卡精品视频免费| 国产精品美女久久久免费 | 久久久亚洲欧洲日产国码aⅴ| 男女猛烈无遮掩视频免费软件| 免费乱码中文字幕网站| 国产精品亚洲专区在线播放| 国产色爽女小说免费看| 精品国产亚洲AV麻豆| 亚洲成av人片天堂网老年人| 一本一道dvd在线观看免费视频| 亚洲综合最新无码专区| 97在线免费观看视频| 亚洲av无码国产精品夜色午夜| 久久久久成人片免费观看蜜芽| 久久亚洲日韩精品一区二区三区| 噼里啪啦免费观看高清动漫4| 亚洲AV一二三区成人影片| 成全视频在线观看免费高清动漫视频下载| 亚洲欧美中文日韩视频| 免费看男女下面日出水视频| 一区二区三区在线免费| 久久精品国产亚洲| 中文字幕影片免费在线观看| 亚洲国产AV一区二区三区四区| 国产免费观看黄AV片| 国产精品永久免费视频| 亚洲高清在线视频| 成人免费看黄20分钟| 污污免费在线观看| 亚洲国产天堂久久综合网站| 成人毛片18女人毛片免费视频未| 国产一区二区三区亚洲综合| 亚洲国产精品福利片在线观看| 免费H网站在线观看的| 美女18一级毛片免费看| 亚洲福利视频一区| 免费一级大黄特色大片| 免费观看在线禁片| 亚洲欧美在线x视频| 中文字幕亚洲精品资源网| 四虎在线播放免费永久视频 |