<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        突破時(shí)空界限:AI新紀(jì)元下的漫畫與視頻智能定位技術(shù)解析

        AIGC動態(tài)9個(gè)月前發(fā)布 量子位
        289 0 0

        無需訓(xùn)練

        突破時(shí)空界限:AI新紀(jì)元下的漫畫與視頻智能定位技術(shù)解析

        原標(biāo)題:AI模仿人類看漫畫,視頻大模型時(shí)序定位能力新SOTA
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):3069字

        NumPro:提升視頻大模型時(shí)序定位能力的創(chuàng)新方法

        NumPro團(tuán)隊(duì)通過創(chuàng)新方法顯著提高了視頻大語言模型(Vid-LLMs)在視頻時(shí)序定位任務(wù)中的表現(xiàn)。該方法靈感來源于漫畫,通過在視頻幀上添加數(shù)字標(biāo)識符,將時(shí)序信息與視覺內(nèi)容直接關(guān)聯(lián),類似于漫畫中編號的畫格,引導(dǎo)觀眾理解故事的順序。

        一、背景與挑戰(zhàn)

        盡管Vid-LLMs在視頻內(nèi)容理解上取得了顯著進(jìn)展,但在視頻時(shí)序定位(Video Temporal Grounding,VTG)任務(wù)中仍面臨挑戰(zhàn)。例如,精確定位視頻中的發(fā)生時(shí)刻對于實(shí)際應(yīng)用至關(guān)重要,但現(xiàn)有模型很難做到這一點(diǎn)。傳統(tǒng)方法通常需要大量的訓(xùn)練和復(fù)雜的適配,限制了其靈活性和可遷移性。

        二、NumPro的實(shí)現(xiàn)

        NumPro的核心創(chuàng)新在于其訓(xùn)練的設(shè)置。該方法無需額外訓(xùn)練,通過為每個(gè)視頻幀標(biāo)記幀號,利用Vid-LLMs的光學(xué)字符識別(OCR)能力,模型可以輕松“讀取”時(shí)間線。通過添加簡單指令,告知模型幀號的含義,從而實(shí)現(xiàn)幀級邊界的準(zhǔn)確識別。

        三、微調(diào)優(yōu)化設(shè)置

        為了進(jìn)一步提升性能,研究團(tuán)隊(duì)還提出了NumPro-FT,通過在NumPro增強(qiáng)數(shù)據(jù)集上對Vid-LLMs進(jìn)行微調(diào),將幀號與訓(xùn)練數(shù)據(jù)中的時(shí)間跨度對齊。微調(diào)過程中,僅對視覺投影儀和大語言模型(LLM)組件進(jìn)行優(yōu)化,采用低秩適應(yīng)(LoRA)技術(shù),有效減少了參數(shù)數(shù)量和訓(xùn)練開銷。

        四、設(shè)計(jì)優(yōu)化與實(shí)驗(yàn)結(jié)果

        研究團(tuán)隊(duì)對字體大小、顏色和位置進(jìn)行了優(yōu)化,最終確定了最佳設(shè)計(jì)為字體大小40、顏色紅色、位置右下角。在標(biāo)準(zhǔn)VTG基準(zhǔn)測試中,NumPro表現(xiàn)卓越,尤其是在Moment Retrieval任務(wù)中,其性能接近或超過了以往的最優(yōu)水平。經(jīng)過NumPro-FT微調(diào)后,模型在多個(gè)數(shù)據(jù)集上的指標(biāo)大幅超越現(xiàn)有SOTA。

        五、廣泛適用性與未來展望

        NumPro不僅在領(lǐng)先模型上效果顯著,還可以廣泛應(yīng)用于多種Vid-LLMs,如LLaVA-Video-7B和Qwen2-VL-72B等。結(jié)合微調(diào)時(shí),NumPro-FT的表現(xiàn)始終優(yōu)于傳統(tǒng)微調(diào)方法,尤其在較長視頻數(shù)據(jù)集上表現(xiàn)突出。在通用視頻問答任務(wù)中,NumPro對一般理解指標(biāo)影響極小,顯示出其在提升視頻時(shí)序定位能力的巨大潛力。

        總之,NumPro的創(chuàng)新方法為視頻理解領(lǐng)域帶來了新的突破,預(yù)示著未來在視頻分析和應(yīng)用中的廣泛前景。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 一个人看的www在线免费视频| 亚洲色大成网站www尤物| 亚洲日韩精品一区二区三区| 亚洲国产精品嫩草影院在线观看 | 国产色在线|亚洲| 亚洲精品无码专区在线播放| 免费激情网站国产高清第一页 | 国产精品亚洲二区在线| 国产无遮挡裸体免费视频在线观看| 无码人妻丰满熟妇区免费| 免费精品人在线二线三线区别| 免费中文字幕不卡视频| 亚洲AV无码第一区二区三区| 亚洲精品久久无码av片俺去也 | 精品一区二区三区免费毛片爱 | 四虎成人免费网站在线| 亚洲AV无码一区二区三区系列| 免费网站观看WWW在线观看| 成人毛片18女人毛片免费视频未| 中文字幕精品亚洲无线码一区应用| 亚洲一区二区免费视频| a在线视频免费观看| 亚洲国产日韩一区高清在线| 男女一边桶一边摸一边脱视频免费 | 亚洲熟伦熟女专区hd高清| 情侣视频精品免费的国产| 亚洲欧洲一区二区三区| 亚洲中文字幕无码av永久| 国产精品深夜福利免费观看 | 久久久亚洲精华液精华液精华液 | 午夜免费福利影院| 日韩精品一区二区亚洲AV观看 | baoyu777永久免费视频| 免费国产综合视频在线看| aaa毛片免费观看| 亚洲免费电影网站| 在线日本高清免费不卡| 亚洲精品无码你懂的| 久久精品九九亚洲精品天堂| 成年在线网站免费观看无广告| 一级全免费视频播放|