突破時(shí)空界限:AI新紀(jì)元下的漫畫與視頻智能定位技術(shù)解析
無需訓(xùn)練
原標(biāo)題:AI模仿人類看漫畫,視頻大模型時(shí)序定位能力新SOTA
文章來源:量子位
內(nèi)容字?jǐn)?shù):3069字
NumPro:提升視頻大模型時(shí)序定位能力的創(chuàng)新方法
NumPro團(tuán)隊(duì)通過創(chuàng)新方法顯著提高了視頻大語言模型(Vid-LLMs)在視頻時(shí)序定位任務(wù)中的表現(xiàn)。該方法靈感來源于漫畫,通過在視頻幀上添加數(shù)字標(biāo)識(shí)符,將時(shí)序信息與視覺內(nèi)容直接關(guān)聯(lián),類似于漫畫中編號(hào)的畫格,引導(dǎo)觀眾理解故事的順序。
一、背景與挑戰(zhàn)
盡管Vid-LLMs在視頻內(nèi)容理解上取得了顯著進(jìn)展,但在視頻時(shí)序定位(Video Temporal Grounding,VTG)任務(wù)中仍面臨挑戰(zhàn)。例如,精確定位視頻中的發(fā)生時(shí)刻對(duì)于實(shí)際應(yīng)用至關(guān)重要,但現(xiàn)有模型很難做到這一點(diǎn)。傳統(tǒng)方法通常需要大量的訓(xùn)練和復(fù)雜的適配,限制了其靈活性和可遷移性。
二、NumPro的實(shí)現(xiàn)
NumPro的核心創(chuàng)新在于其訓(xùn)練的設(shè)置。該方法無需額外訓(xùn)練,通過為每個(gè)視頻幀標(biāo)記幀號(hào),利用Vid-LLMs的光學(xué)字符識(shí)別(OCR)能力,模型可以輕松“讀取”時(shí)間線。通過添加簡單指令,告知模型幀號(hào)的含義,從而實(shí)現(xiàn)幀級(jí)邊界的準(zhǔn)確識(shí)別。
三、微調(diào)優(yōu)化設(shè)置
為了進(jìn)一步提升性能,研究團(tuán)隊(duì)還提出了NumPro-FT,通過在NumPro增強(qiáng)數(shù)據(jù)集上對(duì)Vid-LLMs進(jìn)行微調(diào),將幀號(hào)與訓(xùn)練數(shù)據(jù)中的時(shí)間跨度對(duì)齊。微調(diào)過程中,僅對(duì)視覺投影儀和大語言模型(LLM)組件進(jìn)行優(yōu)化,采用低秩適應(yīng)(LoRA)技術(shù),有效減少了參數(shù)數(shù)量和訓(xùn)練開銷。
四、設(shè)計(jì)優(yōu)化與實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)對(duì)字體大小、顏色和位置進(jìn)行了優(yōu)化,最終確定了最佳設(shè)計(jì)為字體大小40、顏色紅色、位置右下角。在標(biāo)準(zhǔn)VTG基準(zhǔn)測試中,NumPro表現(xiàn)卓越,尤其是在Moment Retrieval任務(wù)中,其性能接近或超過了以往的最優(yōu)水平。經(jīng)過NumPro-FT微調(diào)后,模型在多個(gè)數(shù)據(jù)集上的指標(biāo)大幅超越現(xiàn)有SOTA。
五、廣泛適用性與未來展望
NumPro不僅在領(lǐng)先模型上效果顯著,還可以廣泛應(yīng)用于多種Vid-LLMs,如LLaVA-Video-7B和Qwen2-VL-72B等。結(jié)合微調(diào)時(shí),NumPro-FT的表現(xiàn)始終優(yōu)于傳統(tǒng)微調(diào)方法,尤其在較長視頻數(shù)據(jù)集上表現(xiàn)突出。在通用視頻問答任務(wù)中,NumPro對(duì)一般理解指標(biāo)影響極小,顯示出其在提升視頻時(shí)序定位能力的巨大潛力。
總之,NumPro的創(chuàng)新方法為視頻理解領(lǐng)域帶來了新的突破,預(yù)示著未來在視頻分析和應(yīng)用中的廣泛前景。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破