LHM – 阿里通義開源的單圖生成可動(dòng)畫3D人體模型

LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通義實(shí)驗(yàn)室開發(fā)的一款創(chuàng)新性產(chǎn)品,旨在通過單張圖像重建可動(dòng)畫化的3D人體模型。該模型基于多模態(tài)Transformer架構(gòu),巧妙地結(jié)合了3D幾何特征與2D圖像特征,采用注意力機(jī)制以保留服裝的幾何形狀和紋理細(xì)節(jié),并引入頭部特征金字塔編碼方案以提升面部細(xì)節(jié)的恢復(fù)能力。LHM以3D高斯點(diǎn)云(Gaussian Splatting)形式呈現(xiàn)重建的3D模型,支持實(shí)時(shí)渲染和姿態(tài)控制動(dòng)畫,能夠在幾秒鐘內(nèi)生成高質(zhì)量的可動(dòng)畫化3D人體模型,特別適合于增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)等沉浸式應(yīng)用場景。
LHM是什么
LHM(Large Animatable Human Reconstruction Model)是由阿里巴巴通義實(shí)驗(yàn)室推出的一種技術(shù),能夠通過單張圖片快速重建可動(dòng)畫的3D人體模型。該模型依托多模態(tài)Transformer架構(gòu),融合了3D幾何與2D圖像特征,利用注意力機(jī)制確保服裝的幾何形狀和細(xì)節(jié)紋理得到良好保留。此外,LHM還創(chuàng)新性地設(shè)計(jì)了一個(gè)頭部特征金字塔編碼方案,以增強(qiáng)面部細(xì)節(jié)的恢復(fù)能力。通過3D高斯點(diǎn)云形式進(jìn)行表示,LHM不僅支持實(shí)時(shí)渲染,還能實(shí)現(xiàn)姿態(tài)控制動(dòng)畫,快速生成高質(zhì)量的3D人體模型,非常適合用于AR/VR等沉浸式應(yīng)用。
LHM的主要功能
- 快速重建:能夠在幾秒鐘內(nèi)將單張圖像轉(zhuǎn)換為可動(dòng)畫化的3D模型,無需復(fù)雜的后期處理。
- 高保真細(xì)節(jié):精準(zhǔn)保留服裝紋理和面部細(xì)節(jié)等重要信息,生成的3D模型質(zhì)量極高。
- 實(shí)時(shí)動(dòng)畫:支持基于姿態(tài)控制的實(shí)時(shí)動(dòng)畫渲染,適合各種沉浸式應(yīng)用場景(如AR/VR)。
- 泛化能力強(qiáng):在開放環(huán)境下表現(xiàn)優(yōu)異,能夠適應(yīng)多樣化的場景和姿態(tài)。
LHM的技術(shù)原理
- 多模態(tài)Transformer架構(gòu):將3D幾何特征(從SMPL-X模板提取的表面點(diǎn))與2D圖像特征(由預(yù)訓(xùn)練的視覺Transformer獲取)相結(jié)合,有效地處理幾何與視覺信息。特別針對(duì)頭部區(qū)域設(shè)計(jì)的多尺度特征提取方案,能夠增強(qiáng)面部細(xì)節(jié)的恢復(fù)表現(xiàn)。
- 3D高斯點(diǎn)云表示:采用3D高斯點(diǎn)云(Gaussian Splatting)方式表示3D模型,確保實(shí)時(shí)、高質(zhì)量的渲染效果。模型直接預(yù)測高斯點(diǎn)云的參數(shù)(如位置、旋轉(zhuǎn)、縮放、顏色等),實(shí)現(xiàn)從輸入圖像到3D模型的快速轉(zhuǎn)換。
- 自監(jiān)督學(xué)習(xí):通過大規(guī)模視頻數(shù)據(jù)進(jìn)行訓(xùn)練,利用渲染損失和正則化項(xiàng)優(yōu)化模型,避免了對(duì)稀缺3D掃描數(shù)據(jù)的依賴。在訓(xùn)練過程中,采用“盡可能接近”和“盡可能接近球形”的正則化項(xiàng),以保持3D模型的幾何合理性。
- 實(shí)時(shí)動(dòng)畫支持:基于SMPL-X骨架參數(shù)將重建的3D模型變形至目標(biāo)姿態(tài),支持實(shí)時(shí)姿態(tài)控制動(dòng)畫。整個(gè)重建與動(dòng)畫化的過程可以在一次前向傳播中完成,非常適合實(shí)時(shí)應(yīng)用。
LHM的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://lingtengqiu.github.io/LHM/
- GitHub倉庫:https://github.com/aigc3d/LHM
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.10625
- 在線體驗(yàn)Demo:https://huggingface.co/spaces/DyrusQZ/LHM
LHM的應(yīng)用場景
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):能夠快速將圖像轉(zhuǎn)換為可動(dòng)畫的3D虛擬角色,增強(qiáng)用戶的沉浸體驗(yàn)和交互樂趣。
- 游戲開發(fā):快速生成高質(zhì)量的3D角色模型,支持實(shí)時(shí)動(dòng)畫,有效提升開發(fā)效率和游戲體驗(yàn)。
- 影視制作:在特效和動(dòng)畫電影制作中,快速生成角色模型,顯著提高制作效率和質(zhì)量。
- 社交媒體和內(nèi)容創(chuàng)作:用戶可以生成3D虛擬形象用于社交平臺(tái),創(chuàng)作者能夠迅速生成3D角色以滿足短視頻等需求。
- 教育和培訓(xùn):創(chuàng)建虛擬教師或助教用于在線教育,生成3D模型以支持醫(yī)療、軍事等領(lǐng)域的模擬訓(xùn)練。
常見問題
- 如何使用LHM進(jìn)行3D模型重建?:用戶需提供一張圖像,LHM會(huì)在幾秒內(nèi)生成可動(dòng)畫的3D模型,具體操作可參考官網(wǎng)提供的指南。
- LHM支持哪些操作系統(tǒng)?:LHM為基于云端的應(yīng)用,用戶可通過瀏覽器訪問,無需特定操作系統(tǒng)支持。
- 生成的3D模型可以用于哪些平臺(tái)?:生成的3D模型適用于AR/VR應(yīng)用、游戲引擎、影視制作等多種平臺(tái)。
- 是否需要專業(yè)知識(shí)才能使用LHM?:LHM設(shè)計(jì)為用戶友好,普通用戶也能輕松上手,相關(guān)的操作說明將會(huì)提供。