CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速，北大提出高效三維人體姿態(tài)估計(jì)框架HoT

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速，北大提出高效三維人體姿態(tài)估計(jì)框架HoT
關(guān)鍵字：模型,姿態(tài),冗余,序列,視頻
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：9248字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部目前，Video Pose Transformer（VPT）在基于視頻的三維人體姿態(tài)估計(jì)領(lǐng)域取得了最領(lǐng)先的性能。近年來，這些 VPT 的計(jì)算量變得越來越大，這些巨大的計(jì)算量同時(shí)也限制了這個(gè)領(lǐng)域的進(jìn)一步發(fā)展，對(duì)那些計(jì)算資源不足的研究者十分不友好。例如，訓(xùn)練一個(gè) 243 幀的 VPT 模型通常需要花費(fèi)好幾天的時(shí)間，嚴(yán)重拖慢了研究的進(jìn)度，并成為了該領(lǐng)域亟待解決的一大痛點(diǎn)。
那么，該如何有效地提升 VPT 的效率同時(shí)幾乎不損失精度呢？
來自北京大學(xué)的團(tuán)隊(duì)提出了一種基于沙漏 Tokenizer 的高效三維人體姿態(tài)估計(jì)框架HoT，用來解決現(xiàn)有視頻姿態(tài) Transformer（Video Pose Transformer，VPT）高計(jì)算需求的問題。該框架可以即插即用無縫地集成到 MHFormer，MixSTE，MotionBERT 等模型中，降低模型近 40% 的計(jì)算量而不損失精度，代碼已開源。標(biāo)題：Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation
論文地址：https

原文鏈接：CVPR 2024 | 讓視頻姿態(tài)Transformer變得飛速，北大提出高效三維人體姿態(tài)估計(jì)框架HoT