<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        突破時(shí)空界限:AI新紀(jì)元下的漫畫與視頻智能定位技術(shù)解析

        AIGC動(dòng)態(tài)7個(gè)月前發(fā)布 量子位
        288 0 0

        無需訓(xùn)練

        突破時(shí)空界限:AI新紀(jì)元下的漫畫與視頻智能定位技術(shù)解析

        原標(biāo)題:AI模仿人類看漫畫,視頻大模型時(shí)序定位能力新SOTA
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):3069字

        NumPro:提升視頻大模型時(shí)序定位能力的創(chuàng)新方法

        NumPro團(tuán)隊(duì)通過創(chuàng)新方法顯著提高了視頻大語言模型(Vid-LLMs)在視頻時(shí)序定位任務(wù)中的表現(xiàn)。該方法靈感來源于漫畫,通過在視頻幀上添加數(shù)字標(biāo)識(shí)符,將時(shí)序信息與視覺內(nèi)容直接關(guān)聯(lián),類似于漫畫中編號(hào)的畫格,引導(dǎo)觀眾理解故事的順序。

        一、背景與挑戰(zhàn)

        盡管Vid-LLMs在視頻內(nèi)容理解上取得了顯著進(jìn)展,但在視頻時(shí)序定位(Video Temporal Grounding,VTG)任務(wù)中仍面臨挑戰(zhàn)。例如,精確定位視頻中的發(fā)生時(shí)刻對(duì)于實(shí)際應(yīng)用至關(guān)重要,但現(xiàn)有模型很難做到這一點(diǎn)。傳統(tǒng)方法通常需要大量的訓(xùn)練和復(fù)雜的適配,限制了其靈活性和可遷移性。

        二、NumPro的實(shí)現(xiàn)

        NumPro的核心創(chuàng)新在于其訓(xùn)練的設(shè)置。該方法無需額外訓(xùn)練,通過為每個(gè)視頻幀標(biāo)記幀號(hào),利用Vid-LLMs的光學(xué)字符識(shí)別(OCR)能力,模型可以輕松“讀取”時(shí)間線。通過添加簡單指令,告知模型幀號(hào)的含義,從而實(shí)現(xiàn)幀級(jí)邊界的準(zhǔn)確識(shí)別。

        三、微調(diào)優(yōu)化設(shè)置

        為了進(jìn)一步提升性能,研究團(tuán)隊(duì)還提出了NumPro-FT,通過在NumPro增強(qiáng)數(shù)據(jù)集上對(duì)Vid-LLMs進(jìn)行微調(diào),將幀號(hào)與訓(xùn)練數(shù)據(jù)中的時(shí)間跨度對(duì)齊。微調(diào)過程中,僅對(duì)視覺投影儀和大語言模型(LLM)組件進(jìn)行優(yōu)化,采用低秩適應(yīng)(LoRA)技術(shù),有效減少了參數(shù)數(shù)量和訓(xùn)練開銷。

        四、設(shè)計(jì)優(yōu)化與實(shí)驗(yàn)結(jié)果

        研究團(tuán)隊(duì)對(duì)字體大小、顏色和位置進(jìn)行了優(yōu)化,最終確定了最佳設(shè)計(jì)為字體大小40、顏色紅色、位置右下角。在標(biāo)準(zhǔn)VTG基準(zhǔn)測試中,NumPro表現(xiàn)卓越,尤其是在Moment Retrieval任務(wù)中,其性能接近或超過了以往的最優(yōu)水平。經(jīng)過NumPro-FT微調(diào)后,模型在多個(gè)數(shù)據(jù)集上的指標(biāo)大幅超越現(xiàn)有SOTA。

        五、廣泛適用性與未來展望

        NumPro不僅在領(lǐng)先模型上效果顯著,還可以廣泛應(yīng)用于多種Vid-LLMs,如LLaVA-Video-7B和Qwen2-VL-72B等。結(jié)合微調(diào)時(shí),NumPro-FT的表現(xiàn)始終優(yōu)于傳統(tǒng)微調(diào)方法,尤其在較長視頻數(shù)據(jù)集上表現(xiàn)突出。在通用視頻問答任務(wù)中,NumPro對(duì)一般理解指標(biāo)影響極小,顯示出其在提升視頻時(shí)序定位能力的巨大潛力。

        總之,NumPro的創(chuàng)新方法為視頻理解領(lǐng)域帶來了新的突破,預(yù)示著未來在視頻分析和應(yīng)用中的廣泛前景。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 91在线亚洲综合在线| 特级做A爰片毛片免费69| 亚洲AV成人精品日韩一区| 亚洲成a人片在线观看日本| 国产午夜免费秋霞影院| 91频在线观看免费大全| 午夜无码A级毛片免费视频| 春意影院午夜爽爽爽免费| 99亚洲乱人伦aⅴ精品| 国产成人精品日本亚洲18图| 亚洲成年轻人电影网站www| 亚洲人成人无码网www国产| 国产在线98福利播放视频免费| 99无码人妻一区二区三区免费| 免费视频一区二区| 波霸在线精品视频免费观看| 特级av毛片免费观看| 久久无码av亚洲精品色午夜| 亚洲日韩精品无码专区加勒比 | 精品特级一级毛片免费观看| 亚洲性色AV日韩在线观看| 亚洲人成电影网站| 亚洲黄色在线网站| 久久亚洲私人国产精品| 久久精品国产精品亚洲毛片| 亚洲成av人在线视| 亚洲成Av人片乱码色午夜| 日本红怡院亚洲红怡院最新 | 久久九九久精品国产免费直播| 色婷婷精品免费视频| 特级无码毛片免费视频| 免费无码婬片aaa直播表情| 黄页网址大全免费观看12网站| 美女一级毛片免费观看| 羞羞漫画在线成人漫画阅读免费| 亚洲av第一网站久章草| 男男gvh肉在线观看免费| 免费国产高清毛不卡片基地 | 亚洲麻豆精品国偷自产在线91| 亚洲成a人片在线观看老师| 亚洲精品视频免费|