Champ是一款由阿里巴巴、復(fù)旦大學(xué)和學(xué)的研究者聯(lián)合開(kāi)發(fā)的創(chuàng)新模型,旨在將靜態(tài)人物圖片轉(zhuǎn)換為生動(dòng)的3D動(dòng)畫(huà)視頻。該技術(shù)融合了先進(jìn)的3D參數(shù)化模型(尤其是SMPL模型)與潛在擴(kuò)散模型,能夠精準(zhǔn)捕捉人體的形態(tài)與動(dòng)態(tài)變化,創(chuàng)造出既自然又可控的動(dòng)畫(huà)效果。Champ以其高質(zhì)量的人類(lèi)動(dòng)畫(huà)視頻生成能力,正在引領(lǐng)視頻動(dòng)畫(huà)領(lǐng)域的新潮流。
Champ是什么
Champ是一種基于3D技術(shù)的模型,專(zhuān)注于將人物圖片轉(zhuǎn)變?yōu)閯?dòng)態(tài)視頻動(dòng)畫(huà)。它結(jié)合了3D參數(shù)化模型(特別是SMPL模型)和潛在擴(kuò)散模型,能夠高效捕捉和再現(xiàn)人體的三維形態(tài)及動(dòng)態(tài)變化,同時(shí)保持動(dòng)畫(huà)的時(shí)間一致性和視覺(jué)真實(shí)感,從而生成高質(zhì)量的人類(lèi)動(dòng)畫(huà)視頻。
Champ的官網(wǎng)入口
- 官方項(xiàng)目主頁(yè):https://fudan-generative-vision.github.io/champ/#/
- GitHub源碼庫(kù):https://github.com/fudan-generative-vision/champ
- arXiv研究論文:https://arxiv.org/abs/2403.14781
Champ的主要功能
- 從靜態(tài)圖片生成動(dòng)態(tài)視頻動(dòng)畫(huà):Champ能夠?qū)㈧o態(tài)的人物圖片轉(zhuǎn)化為動(dòng)態(tài)的視頻,通過(guò)精準(zhǔn)再現(xiàn)人體的形狀和動(dòng)作,創(chuàng)造出真實(shí)且可控的動(dòng)畫(huà)效果。
- 三維形狀與姿勢(shì)表示:Champ精確地表示和控制人體的三維形狀與姿勢(shì),能夠更準(zhǔn)確地提取源視頻中的人體幾何特征及信息。
- 跨身份動(dòng)畫(huà)生成:Champ允許將一個(gè)視頻中的序列應(yīng)用到另一個(gè)不同身份的參考圖像上,實(shí)現(xiàn)跨身份的動(dòng)畫(huà)生成。
- 高質(zhì)量視頻輸出:在生成視頻時(shí),Champ確保角色與背景之間的一致性,并通過(guò)時(shí)間對(duì)齊模塊實(shí)現(xiàn)幀與幀之間的流暢過(guò)渡,從而生產(chǎn)出高質(zhì)量的視頻。
- 結(jié)合文本生成圖像模型:Champ與文本生成圖像模型結(jié)合,用戶(hù)可以通過(guò)文本描述指定動(dòng)畫(huà)中的角色外觀(guān)和動(dòng)作,Champ據(jù)此生成相應(yīng)的動(dòng)畫(huà)視頻。
Champ的應(yīng)用場(chǎng)景
Champ可以廣泛應(yīng)用于影視制作、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)、社交媒體內(nèi)容創(chuàng)作等領(lǐng)域,為用戶(hù)提供豐富的動(dòng)畫(huà)創(chuàng)作工具,滿(mǎn)足多樣化的視覺(jué)表現(xiàn)需求。
常見(jiàn)問(wèn)題
Champ支持哪些格式的輸入圖片? 目前,Champ支持多種常見(jiàn)的圖片格式,包括JPEG、PNG等,用戶(hù)可以通過(guò)上傳這些格式的圖片進(jìn)行動(dòng)畫(huà)生成。
生成的視頻質(zhì)量如何? Champ能夠生成高質(zhì)量的動(dòng)畫(huà)視頻,確保人物與背景之間的協(xié)調(diào)性及流暢的表現(xiàn)。
是否需要專(zhuān)業(yè)技能才能使用Champ? Champ設(shè)計(jì)為用戶(hù)友好,普通用戶(hù)也可以輕松操作,但對(duì)動(dòng)畫(huà)創(chuàng)作有一定了解的用戶(hù)將能夠更好地利用其功能。
Champ的工作原理
- 3D人體參數(shù)化模型(SMPL):
- 使用SMPL模型以表達(dá)人體的形狀與姿勢(shì),該模型能夠有效捕捉人體的形狀和姿勢(shì)變化。
- 通過(guò)將SMPL模型擬合至參考圖像,獲取人體的形狀參數(shù)與姿勢(shì)參數(shù)。
- 從源視頻提取:
- 利用現(xiàn)有框架(如4D-Humans)從源視頻中提取連續(xù)的人體序列,這些序列包括描述視頻中人物動(dòng)作的SMPL模型參數(shù)。
- 生成深度、法線(xiàn)和語(yǔ)義圖:
- 將SMPL模型渲染為深度圖、法線(xiàn)圖與語(yǔ)義圖,以詳細(xì)展現(xiàn)3D結(jié)構(gòu)、表面方向及人體部位信息。
- 對(duì)齊與指導(dǎo):
- 利用提取的SMPL模型參數(shù),對(duì)參考圖像中的人物形狀與姿勢(shì)進(jìn)行對(duì)齊,確保動(dòng)畫(huà)中的人物與源視頻中的動(dòng)作一致。
- 引入基于骨架的指導(dǎo),以增強(qiáng)對(duì)復(fù)雜動(dòng)作(如面部表情或手指動(dòng)作)的表現(xiàn)。
- 多層融合:
- 通過(guò)自注意力機(jī)制,將深度、法線(xiàn)、語(yǔ)義和骨架信息的特征圖融合,生成綜合的指導(dǎo)信號(hào)。
- 潛在擴(kuò)散模型:
- 利用潛在擴(kuò)散模型作為生成框架,將指導(dǎo)信號(hào)與參考圖像的編碼特征結(jié)合,生成動(dòng)畫(huà)幀。
- 在潛在空間中執(zhí)行去噪過(guò)程,從帶噪聲的表示中逐步恢復(fù)出清晰的動(dòng)畫(huà)幀。
- 訓(xùn)練與推理:
- 在訓(xùn)練階段,模型學(xué)習(xí)根據(jù)參考圖像和指導(dǎo)生成連貫的動(dòng)畫(huà)序列。
- 在推理階段,模型依據(jù)新的參考圖像和序列生成動(dòng)畫(huà),展示其泛化能力。
- 視頻生成:
- 將生成的幀序列合成視頻,確保視頻中的人物與參考圖像視覺(jué)上的一致性,并保持自然流暢的動(dòng)作。