<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長(zhǎng)視頻理解/檢索絕佳拍檔

        AIGC動(dòng)態(tài)3個(gè)月前發(fā)布 量子位
        434 0 0

        具有三維結(jié)構(gòu),保留時(shí)空關(guān)系

        Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長(zhǎng)視頻理解/檢索絕佳拍檔

        原標(biāo)題:Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長(zhǎng)視頻理解/檢索絕佳拍檔
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):4948字

        VideoRoPE: 增強(qiáng)長(zhǎng)視頻理解和檢索的旋轉(zhuǎn)位置嵌入

        本文總結(jié)了復(fù)旦大學(xué)、上海AI實(shí)驗(yàn)室等機(jī)構(gòu)提出的VideoRoPE,一種將旋轉(zhuǎn)位置嵌入(RoPE)擴(kuò)展到視頻領(lǐng)域的全新方法,顯著提升了長(zhǎng)視頻理解和檢索能力。

        1. RoPE在視頻領(lǐng)域的挑戰(zhàn)與VideoRoPE的創(chuàng)新

        RoPE因其處理長(zhǎng)序列的能力而備受關(guān)注,但將其應(yīng)用于具有復(fù)雜時(shí)空結(jié)構(gòu)的視頻數(shù)據(jù)仍然是一個(gè)挑戰(zhàn)。先前的方法,如M-RoPE,在時(shí)間維度建模上存在不足,容易受到干擾項(xiàng)的影響,且難以捕捉長(zhǎng)距離時(shí)空依賴(lài)關(guān)系。VideoRoPE針對(duì)這些問(wèn)題進(jìn)行了創(chuàng)新,提出了三個(gè)關(guān)鍵特性:低頻時(shí)間分配(LTA)、對(duì)角線布局(DL)和可調(diào)時(shí)間間隔(ATS)。

        2. VideoRoPE的三個(gè)核心特性

        1. 低頻時(shí)間分配 (LTA): 為了避免時(shí)間維度上的高頻振蕩導(dǎo)致的“哈希碰撞”,VideoRoPE采用低頻旋轉(zhuǎn)角度來(lái)建模時(shí)間依賴(lài)性,從而增強(qiáng)模型對(duì)干擾項(xiàng)的魯棒性,并有效捕捉長(zhǎng)距離時(shí)間依賴(lài)關(guān)系。
        2. 對(duì)角線布局 (DL): VideoRoPE采用對(duì)角線布局來(lái)保持空間對(duì)稱(chēng)性,確保空間索引的合理增長(zhǎng),避免視覺(jué)標(biāo)記過(guò)于靠近角落,并保持與原始RoPE編碼形式的一致性。
        3. 可調(diào)時(shí)間間隔 (ATS): 通過(guò)引入縮放因子,VideoRoPE可以靈活調(diào)整時(shí)間索引,更好地對(duì)齊視覺(jué)和文本標(biāo)記之間的時(shí)間信息,從而有效控制時(shí)間間隔,提升模型的時(shí)空建模能力。

        3. VideoRoPE的性能表現(xiàn)

        研究團(tuán)隊(duì)通過(guò)一系列實(shí)驗(yàn),在長(zhǎng)視頻檢索、視頻理解和視頻幻覺(jué)等任務(wù)上評(píng)估了VideoRoPE的性能。結(jié)果表明,VideoRoPE在V-NIAH-D(帶干擾項(xiàng)的視覺(jué)大海撈針)等具有挑戰(zhàn)性的任務(wù)中,顯著優(yōu)于Vanilla RoPE、TAD-RoPE和M-RoPE等現(xiàn)有方法。尤其在長(zhǎng)視頻理解任務(wù)(LongVideoBench、MLVU、Video-MME)和視頻幻覺(jué)任務(wù)(VideoHallucinator)中,VideoRoPE都展現(xiàn)出更強(qiáng)的魯棒性和更優(yōu)越的性能,體現(xiàn)了其在捕捉長(zhǎng)距離時(shí)空依賴(lài)關(guān)系方面的優(yōu)勢(shì)。

        4. VideoRoPE的四個(gè)關(guān)鍵標(biāo)準(zhǔn)

        這項(xiàng)工作也總結(jié)了有效視頻位置編碼的四個(gè)關(guān)鍵標(biāo)準(zhǔn):2D/3D結(jié)構(gòu)、頻率分配、空間對(duì)稱(chēng)性和時(shí)間索引縮放。VideoRoPE通過(guò)合理的結(jié)構(gòu)設(shè)計(jì)和參數(shù)調(diào)整,滿(mǎn)足了這四個(gè)標(biāo)準(zhǔn),從而實(shí)現(xiàn)了優(yōu)異的性能。

        5. 結(jié)論

        VideoRoPE通過(guò)巧妙的設(shè)計(jì),有效地解決了將RoPE擴(kuò)展到視頻領(lǐng)域所面臨的挑戰(zhàn),在長(zhǎng)視頻理解和檢索任務(wù)中取得了顯著的成果。其提出的三個(gè)核心特性為未來(lái)視頻位置編碼的研究提供了新的思路和方向。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 久久精品成人免费观看| 亚洲一区二区三区丝袜| 国产V亚洲V天堂A无码| 亚洲日韩精品射精日| 久久亚洲国产精品五月天婷| 亚洲AV日韩综合一区| 亚洲欧洲无码AV电影在线观看| 国产日韩成人亚洲丁香婷婷| 亚洲日本一区二区一本一道| 亚洲爽爽一区二区三区| 在线a亚洲v天堂网2019无码| 亚洲另类激情综合偷自拍图| 亚洲av日韩av天堂影片精品| 久久久久亚洲av无码专区导航| 亚洲福利视频网址| 亚洲av无码不卡私人影院| 真人做人试看60分钟免费视频| 成人免费黄色网址| 啦啦啦www免费视频| 亚欧免费一级毛片| 亚欧色视频在线观看免费| 亚洲精品视频免费观看| 亚洲综合精品成人| 美女黄频a美女大全免费皮| 最新亚洲卡一卡二卡三新区| 亚洲永久网址在线观看| 深夜免费在线视频| 在线91精品亚洲网站精品成人| 色吊丝性永久免费看码 | 亚洲第一二三四区| 亚洲精品无码永久在线观看男男 | 国产亚洲老熟女视频| 亚洲av最新在线网址| 国产亚洲精午夜久久久久久| 久久精品国产亚洲AV麻豆王友容| 亚洲成a人片在线观看中文app| 内射少妇36P亚洲区| 亚洲乱妇熟女爽到高潮的片| 中文字幕免费在线看| 一级做a爰全过程免费视频毛片| 免费久久人人爽人人爽av |