Llama都在用的RoPE有了視頻版,復旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔
具有三維結構,保留時空關系

原標題:Llama都在用的RoPE有了視頻版,復旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔
文章來源:量子位
內容字數(shù):4948字
VideoRoPE: 增強長視頻理解和檢索的旋轉位置嵌入
本文總結了復旦大學、上海AI實驗室等機構提出的VideoRoPE,一種將旋轉位置嵌入(RoPE)擴展到視頻領域的全新方法,顯著提升了長視頻理解和檢索能力。
1. RoPE在視頻領域的挑戰(zhàn)與VideoRoPE的創(chuàng)新
RoPE因其處理長序列的能力而備受關注,但將其應用于具有復雜時空結構的視頻數(shù)據仍然是一個挑戰(zhàn)。先前的方法,如M-RoPE,在時間維度建模上存在不足,容易受到干擾項的影響,且難以捕捉長距離時空依賴關系。VideoRoPE針對這些問題進行了創(chuàng)新,提出了三個關鍵特性:低頻時間分配(LTA)、對角線布局(DL)和可調時間間隔(ATS)。
2. VideoRoPE的三個核心特性
- 低頻時間分配 (LTA): 為了避免時間維度上的高頻振蕩導致的“哈希碰撞”,VideoRoPE采用低頻旋轉角度來建模時間依賴性,從而增強模型對干擾項的魯棒性,并有效捕捉長距離時間依賴關系。
- 對角線布局 (DL): VideoRoPE采用對角線布局來保持空間對稱性,確保空間索引的合理增長,避免視覺標記過于靠近角落,并保持與原始RoPE編碼形式的一致性。
- 可調時間間隔 (ATS): 通過引入縮放因子,VideoRoPE可以靈活調整時間索引,更好地對齊視覺和文本標記之間的時間信息,從而有效控制時間間隔,提升模型的時空建模能力。
3. VideoRoPE的性能表現(xiàn)
研究團隊通過一系列實驗,在長視頻檢索、視頻理解和視頻幻覺等任務上評估了VideoRoPE的性能。結果表明,VideoRoPE在V-NIAH-D(帶干擾項的視覺大海撈針)等具有挑戰(zhàn)性的任務中,顯著優(yōu)于Vanilla RoPE、TAD-RoPE和M-RoPE等現(xiàn)有方法。尤其在長視頻理解任務(LongVideoBench、MLVU、Video-MME)和視頻幻覺任務(VideoHallucinator)中,VideoRoPE都展現(xiàn)出更強的魯棒性和更優(yōu)越的性能,體現(xiàn)了其在捕捉長距離時空依賴關系方面的優(yōu)勢。
4. VideoRoPE的四個關鍵標準
這項工作也總結了有效視頻位置編碼的四個關鍵標準:2D/3D結構、頻率分配、空間對稱性和時間索引縮放。VideoRoPE通過合理的結構設計和參數(shù)調整,滿足了這四個標準,從而實現(xiàn)了優(yōu)異的性能。
5. 結論
VideoRoPE通過巧妙的設計,有效地解決了將RoPE擴展到視頻領域所面臨的挑戰(zhàn),在長視頻理解和檢索任務中取得了顯著的成果。其提出的三個核心特性為未來視頻位置編碼的研究提供了新的思路和方向。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

粵公網安備 44011502001135號