<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        InternVideo2.5

        AI工具5個月前更新 AI工具集
        694 0 0

        InternVideo2.5 – 上海 AI Lab 聯合南大、中科院開源的視頻多模態大模型

        InternVideo2.5是由上海人工智能實驗室、學和中科院深圳先進技術研究院聯合開源的一款視頻多模態大模型。該模型在視頻理解領域實現了突破性進展,尤其在處理長視頻和細粒度時空感知方面表現卓越。InternVideo2.5可以處理長達萬幀的視頻,視頻處理能力較前一版本提升了六倍,能夠在長視頻中準確定位目標幀,完成高效的視頻檢索。

        InternVideo2.5是什么

        InternVideo2.5是一款由上海人工智能實驗室與學及中科院深圳先進技術研究院共同開發并開源的視頻多模態大模型。該模型在視頻理解領域取得了顯著的成果,尤其是在長視頻處理和細粒度時空感知方面表現出色。它能夠處理長達萬幀的視頻,與前代相比,視頻處理長度提升了六倍,使得在長視頻中精準定位目標幀成為可能,實現了高效的視頻檢索。該模型支持通用視頻問答,并能夠完成目標跟蹤、分割等專業視覺任務。

        InternVideo2.5

        InternVideo2.5的主要功能

        • 超長視頻處理:InternVideo2.5具備處理長達萬幀的視頻的能力,其視頻處理長度較前代提升了六倍(從3000幀到10000幀),能夠在長視頻中精準定位目標幀,提高視頻分析的效率。
        • 細粒度時空感知:該模型能夠準確識別和定位視頻中的物體、場景和動作,并理解細微的時空關系。它支持通用視頻問答,能夠完成目標跟蹤、分割等專業視覺任務,并在復雜場景下識別物體的軌跡和狀態變化,為自動駕駛和監控安防等領域提供精準的視覺支持。
        • 多模態融合:InternVideo2.5將視覺理解與語言處理深度結合,能夠根據視頻內容生成詳盡的描述并回答用戶提問。
        • 專業視覺任務支持:通過任務偏好優化(TPO),InternVideo2.5能夠處理多種專業視覺任務,如目標跟蹤、分割和時間定位,能根據任務需求動態調整模型處理策略,以在不同場景下提供最優的視覺分析能力。
        • 高效預訓練與優化:InternVideo2.5采用漸進式多階段訓練方案,使用超過30萬小時的視頻數據進行預訓練,從而提升模型性能并降低訓練成本。

        InternVideo2.5的技術原理

        • 長時豐富上下文建模(LRC):LRC通過擴展模型的上下文長度和細節感知能力,使InternVideo2.5能夠處理萬幀視頻。其核心在于:
          • 視頻長度自適應令牌表示:根據視頻的長度和內容特征動態調整幀采樣策略。例如,短序列(如秒級視頻)采用密樣(每秒15幀),而長序列(如分鐘或小時級視頻)則采用稀疏采樣(每秒1幀),確保能夠有效捕捉不同時間尺度上的信息。
          • 分層上下文壓縮(HiCo):通過分層壓縮機制,減少視頻信號中的時空冗余,同時保留關鍵信息。具體包括:
            • 時空令牌合并:基于語義相似性進行令牌合并,而非簡單的基于位置的池化操作,從而在保留細節的同時顯著減少冗余信息。
            • 多模態上下文整合:在語言模型處理階段,進一步整合壓縮后的視覺令牌,確保視覺與語言信息的深度融合。
        • 任務偏好優化(TPO):TPO通過將細粒度視覺任務的標注信息轉化為可微分的任務偏好,指導模型學習,使InternVideo2.5能夠處理多種專業視覺任務。具體實現方式包括:
          • 任務特定組件集成:在模型中加入任務特定的組件(如時間頭、掩碼適配器等),并通過任務特定數據集進行訓練。
          • 視覺概念預訓練:使用大量圖像和視頻文本對進行預訓練,進一步提升模型的視覺理解能力。
        • 漸進式多階段訓練方案:InternVideo2.5采用漸進式多階段訓練方案,逐步提升模型性能:
          • 基礎學習階段:進行任務識別指令調整和視頻語言對齊訓練。
          • 細粒度感知訓練階段:通過集成任務特定組件和視覺概念預訓練,增強視覺理解能力。
          • 綜合優化階段:在混合語料庫上進行多任務訓練和指令調整,優化所有模型組件。
        • 高效分布式系統:為支持大規模視頻數據的訓練和測試,InternVideo2.5開發了基于多模態序列并行的分布式系統。該系統結合了序列和張量的分布式處理,以及動態數據打包技術,顯著提高了訓練效率。

        InternVideo2.5的項目地址

        InternVideo2.5的應用場景

        • 視頻內容理解與檢索:InternVideo2.5能夠根據用戶的文本查詢快速找到相關視頻內容,支持復雜的視頻檢索任務。
        • 視頻編輯與創作:該模型能夠為視頻編輯提供智能支持,例如自動生成精彩片段、生成字幕或解說詞,提升視頻創作的效率。
        • 監控安防:在監控安防領域,InternVideo2.5能夠實時分析監控視頻,快速定位異常并發出警報。
        • 自動駕駛:InternVideo2.5能夠實時處理自動駕駛車輛的攝像頭數據,準確識別道路標志、交通信號和障礙物。
        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲高清无码专区视频| 色片在线免费观看| 亚洲情a成黄在线观看| 国产大陆亚洲精品国产| 手机看片久久国产免费| 91天堂素人精品系列全集亚洲 | 天天影院成人免费观看| 亚洲黄色免费网址| www视频在线观看免费| 亚洲人成在线中文字幕| 毛片视频免费观看| 亚洲AV日韩AV无码污污网站| 国产免费久久精品久久久| 亚洲真人无码永久在线| 99在线免费视频| 西西人体44rt高清亚洲| 日韩免费精品视频| 亚洲精品无码专区| 一区二区三区福利视频免费观看| 中文字幕在线观看亚洲| 日韩毛片免费无码无毒视频观看| 亚洲国产一区二区三区在线观看| 亚洲Av无码乱码在线播放| 中文字幕av无码不卡免费| 18亚洲男同志videos网站| 最近2019中文免费字幕| 免费的黄色网页在线免费观看| 亚洲综合AV在线在线播放| 免费无码中文字幕A级毛片| 亚洲乱码一区二区三区国产精品| 免费人成无码大片在线观看| a级毛片毛片免费观看永久| 亚洲小说区图片区| 免费a级毛片18以上观看精品| 两个人看的www视频免费完整版| 久久亚洲中文字幕精品有坂深雪| 成人免费视频88| 国产无遮挡裸体免费视频在线观看 | 免费v片在线观看| 无码国产精品一区二区免费vr | 精品香蕉在线观看免费|