視頻大模型無損提速:刪除多余token,訓(xùn)練時(shí)間減少30%,幀率越高效果越好 | NeurIPS
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:視頻大模型無損提速:刪除多余token,訓(xùn)練時(shí)間減少30%,幀率越高效果越好 | NeurIPS
關(guān)鍵字:視頻,圖像,精度,時(shí)間,長度
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIDon’t look twice!
把連續(xù)相同的圖像塊合并成一個(gè)token,就能讓Transformer的視頻處理速度大幅提升。
卡內(nèi)基梅隆大學(xué)提出了視頻大模型加速方法Run-Length Tokenization(RLT),被NeurIPS 2024選為Spotlight論文。
在精度幾乎沒有損失的前提下,RLT可以讓模型訓(xùn)練和推理速度雙雙提升。
一般情況下,利用RLT,Transformer視頻識(shí)別模型的訓(xùn)練時(shí)間可縮短30%,推理階段提速率提升更是可達(dá)67%。
對(duì)于高幀率和長視頻,RLT的效果更加明顯,30fps視頻的訓(xùn)練速度可提升1倍,長視頻訓(xùn)練token減少80%。
相比于傳統(tǒng)的剪枝方法,RLT能用更小的精度損失實(shí)現(xiàn)更好的加速效果。
有人想到了電視劇中的評(píng)論,認(rèn)為這項(xiàng)研究找到了在壓縮空間中進(jìn)行搜索的方法。
DeepMind科學(xué)家Sander Dieleman則評(píng)價(jià)稱,這項(xiàng)研究是一種“非主流”(Off-the-grid)的創(chuàng)新方法,但比起其他復(fù)雜的非主流研究,又顯得非常簡潔。
重復(fù)圖像塊合為一個(gè)tokenRLT的核心原理,是利用
原文鏈接:視頻大模型無損提速:刪除多余token,訓(xùn)練時(shí)間減少30%,幀率越高效果越好 | NeurIPS
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: