<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔

        AIGC動態(tài)7個月前發(fā)布 量子位
        450 0 0

        具有三維結(jié)構(gòu),保留時空關(guān)系

        Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔

        原標(biāo)題:Llama都在用的RoPE有了視頻版,復(fù)旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):4948字

        VideoRoPE: 增強長視頻理解和檢索的旋轉(zhuǎn)位置嵌入

        本文總結(jié)了復(fù)旦大學(xué)、上海AI實驗室等機構(gòu)提出的VideoRoPE,一種將旋轉(zhuǎn)位置嵌入(RoPE)擴展到視頻領(lǐng)域的全新方法,顯著提升了長視頻理解和檢索能力。

        1. RoPE在視頻領(lǐng)域的挑戰(zhàn)與VideoRoPE的創(chuàng)新

        RoPE因其處理長序列的能力而備受關(guān)注,但將其應(yīng)用于具有復(fù)雜時空結(jié)構(gòu)的視頻數(shù)據(jù)仍然是一個挑戰(zhàn)。先前的方法,如M-RoPE,在時間維度建模上存在不足,容易受到干擾項的影響,且難以捕捉長距離時空依賴關(guān)系。VideoRoPE針對這些問題進行了創(chuàng)新,提出了三個關(guān)鍵特性:低頻時間分配(LTA)、對角線布局(DL)和可調(diào)時間間隔(ATS)。

        2. VideoRoPE的三個核心特性

        1. 低頻時間分配 (LTA): 為了避免時間維度上的高頻振蕩導(dǎo)致的“哈希碰撞”,VideoRoPE采用低頻旋轉(zhuǎn)角度來建模時間依賴性,從而增強模型對干擾項的魯棒性,并有效捕捉長距離時間依賴關(guān)系。
        2. 對角線布局 (DL): VideoRoPE采用對角線布局來保持空間對稱性,確保空間索引的合理增長,避免視覺標(biāo)記過于靠近角落,并保持與原始RoPE編碼形式的一致性。
        3. 可調(diào)時間間隔 (ATS): 通過引入縮放因子,VideoRoPE可以靈活調(diào)整時間索引,更好地對齊視覺和文本標(biāo)記之間的時間信息,從而有效控制時間間隔,提升模型的時空建模能力。

        3. VideoRoPE的性能表現(xiàn)

        研究團隊通過一系列實驗,在長視頻檢索、視頻理解和視頻幻覺等任務(wù)上評估了VideoRoPE的性能。結(jié)果表明,VideoRoPE在V-NIAH-D(帶干擾項的視覺大海撈針)等具有挑戰(zhàn)性的任務(wù)中,顯著優(yōu)于Vanilla RoPE、TAD-RoPE和M-RoPE等現(xiàn)有方法。尤其在長視頻理解任務(wù)(LongVideoBench、MLVU、Video-MME)和視頻幻覺任務(wù)(VideoHallucinator)中,VideoRoPE都展現(xiàn)出更強的魯棒性和更優(yōu)越的性能,體現(xiàn)了其在捕捉長距離時空依賴關(guān)系方面的優(yōu)勢。

        4. VideoRoPE的四個關(guān)鍵標(biāo)準(zhǔn)

        這項工作也總結(jié)了有效視頻位置編碼的四個關(guān)鍵標(biāo)準(zhǔn):2D/3D結(jié)構(gòu)、頻率分配、空間對稱性和時間索引縮放。VideoRoPE通過合理的結(jié)構(gòu)設(shè)計和參數(shù)調(diào)整,滿足了這四個標(biāo)準(zhǔn),從而實現(xiàn)了優(yōu)異的性能。

        5. 結(jié)論

        VideoRoPE通過巧妙的設(shè)計,有效地解決了將RoPE擴展到視頻領(lǐng)域所面臨的挑戰(zhàn),在長視頻理解和檢索任務(wù)中取得了顯著的成果。其提出的三個核心特性為未來視頻位置編碼的研究提供了新的思路和方向。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲日本一区二区三区| 国产亚洲情侣一区二区无码AV| 亚洲福利视频一区二区三区| 免费无码黄网站在线看| 亚洲色欲久久久综合网| 在线观看免费视频一区| 亚洲人成网亚洲欧洲无码久久| 91在线免费视频| 国产亚洲成AV人片在线观黄桃| 91视频免费观看| 亚洲三级电影网址| 91免费播放人人爽人人快乐| 亚洲激情视频图片| 国产一区二区三区在线免费观看| 亚洲AV成人无码久久WWW| 免费a级毛片无码a∨性按摩| 羞羞网站免费观看| 好看的亚洲黄色经典| 99re免费视频| 亚洲欧美日韩中文字幕在线一区| 日本高清免费不卡视频| 免费精品久久久久久中文字幕| 久久久久亚洲精品无码网址| 久草免费手机视频| 亚洲首页国产精品丝袜| 免费无码又爽又刺激高潮的视频| 特级av毛片免费观看| 亚洲国产精品无码久久一区二区 | 美女被免费视频网站a| 亚洲精品成人a在线观看| 老司机69精品成免费视频| 亚洲丝袜中文字幕| 又粗又大又硬又爽的免费视频| 青青操免费在线视频| 亚洲精品中文字幕无乱码麻豆| 免费一级毛片正在播放| 99精品免费观看| 黄色免费在线网址| 91久久亚洲国产成人精品性色| 国产精品99久久免费| 一级毛片免费视频|