CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速,北大提出高效三維人體姿態(tài)估計(jì)框架HoT
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速,北大提出高效三維人體姿態(tài)估計(jì)框架HoT
關(guān)鍵字:模型,姿態(tài),冗余,序列,視頻
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):9248字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部目前,Video Pose Transformer(VPT)在基于視頻的三維人體姿態(tài)估計(jì)領(lǐng)域取得了最領(lǐng)先的性能。近年來,這些 VPT 的計(jì)算量變得越來越大,這些巨大的計(jì)算量同時(shí)也限制了這個(gè)領(lǐng)域的進(jìn)一步發(fā)展,對(duì)那些計(jì)算資源不足的研究者十分不友好。例如,訓(xùn)練一個(gè) 243 幀的 VPT 模型通常需要花費(fèi)好幾天的時(shí)間,嚴(yán)重拖慢了研究的進(jìn)度,并成為了該領(lǐng)域亟待解決的一大痛點(diǎn)。
那么,該如何有效地提升 VPT 的效率同時(shí)幾乎不損失精度呢?
來自北京大學(xué)的團(tuán)隊(duì)提出了一種基于沙漏 Tokenizer 的高效三維人體姿態(tài)估計(jì)框架HoT,用來解決現(xiàn)有視頻姿態(tài) Transformer(Video Pose Transformer,VPT)高計(jì)算需求的問題。該框架可以即插即用無縫地集成到 MHFormer,MixSTE,MotionBERT 等模型中,降低模型近 40% 的計(jì)算量而不損失精度,代碼已開源。標(biāo)題:Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation
論文地址:https
原文鏈接:CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速,北大提出高效三維人體姿態(tài)估計(jì)框架HoT
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)