AIGC動態歡迎閱讀
原標題:視頻大模型無損提速:刪除多余token,訓練時間減少30%,幀率越高效果越好 | NeurIPS
關鍵字:視頻,圖像,精度,時間,長度
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAIDon’t look twice!
把連續相同的圖像塊合并成一個token,就能讓Transformer的視頻處理速度大幅提升。
卡內基梅隆大學提出了視頻大模型加速方法Run-Length Tokenization(RLT),被NeurIPS 2024選為Spotlight論文。
在精度幾乎沒有損失的前提下,RLT可以讓模型訓練和推理速度雙雙提升。
一般情況下,利用RLT,Transformer視頻識別模型的訓練時間可縮短30%,推理階段提速率提升更是可達67%。
對于高幀率和長視頻,RLT的效果更加明顯,30fps視頻的訓練速度可提升1倍,長視頻訓練token減少80%。
相比于傳統的剪枝方法,RLT能用更小的精度損失實現更好的加速效果。
有人想到了電視劇中的評論,認為這項研究找到了在壓縮空間中進行搜索的方法。
DeepMind科學家Sander Dieleman則評價稱,這項研究是一種“非主流”(Off-the-grid)的創新方法,但比起其他復雜的非主流研究,又顯得非常簡潔。
重復圖像塊合為一個tokenRLT的核心原理,是利用
原文鏈接:視頻大模型無損提速:刪除多余token,訓練時間減少30%,幀率越高效果越好 | NeurIPS
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...