HumanVid
HumanVid是一款由香港中文大學(xué)與上海人工智能實(shí)驗(yàn)室聯(lián)合研發(fā)的高質(zhì)量數(shù)據(jù)集,專為人類圖像動(dòng)畫訓(xùn)練而設(shè)計(jì)。該數(shù)據(jù)集結(jié)合了真實(shí)世界的視頻與合成數(shù)據(jù),經(jīng)過精心的規(guī)則篩選和高質(zhì)量注釋,力求提升視頻生成的控制性與穩(wěn)定性。通過基線模型CamAnimate的驗(yàn)證,HumanVid在控制人物姿勢(shì)與攝像機(jī)方面取得了顯著進(jìn)展,計(jì)劃于2024年9月底公開代碼與數(shù)據(jù)集。
HumanVid是什么
HumanVid是一個(gè)旨在推動(dòng)人類圖像動(dòng)畫研究的高質(zhì)量數(shù)據(jù)集,由香港中文大學(xué)和上海人工智能實(shí)驗(yàn)室共同開發(fā)。該數(shù)據(jù)集通過整合現(xiàn)實(shí)世界的視頻和合成數(shù)據(jù),采用嚴(yán)格的篩選標(biāo)準(zhǔn)確保視頻質(zhì)量,并運(yùn)用2D姿勢(shì)估計(jì)和SLAM技術(shù)進(jìn)行詳細(xì)注釋。HumanVid旨在提升視頻生成的可控性與穩(wěn)定性,并通過基線模型CamAnimate證明其在姿勢(shì)控制與攝像機(jī)方面的有效性。該項(xiàng)目預(yù)計(jì)在2024年9月底發(fā)布相應(yīng)的代碼和數(shù)據(jù)集。
HumanVid的主要功能
- 高質(zhì)量數(shù)據(jù)集成:融合現(xiàn)實(shí)世界與合成數(shù)據(jù),確保數(shù)據(jù)集的多樣性與豐富性。
- 版權(quán)無憂:所有視頻與3D角色資產(chǎn)均為無版權(quán)素材,方便研究與應(yīng)用。
- 嚴(yán)格篩選機(jī)制:通過規(guī)則篩選確保數(shù)據(jù)集內(nèi)視頻的高標(biāo)準(zhǔn)。
- 精準(zhǔn)注釋技術(shù):應(yīng)用2D姿勢(shì)估計(jì)和SLAM技術(shù),對(duì)視頻中的人體和攝像機(jī)進(jìn)行精確標(biāo)注。
HumanVid的技術(shù)原理
- 數(shù)據(jù)集構(gòu)建:HumanVid通過從互聯(lián)網(wǎng)上收集大量無版權(quán)的真實(shí)視頻,并結(jié)合合成數(shù)據(jù),旨在構(gòu)建一個(gè)高質(zhì)量的數(shù)據(jù)集。所有視頻經(jīng)過嚴(yán)格的篩選流程,確保數(shù)據(jù)的高標(biāo)準(zhǔn)。
- 注釋方法:運(yùn)用2D姿勢(shì)估計(jì)技術(shù)對(duì)視頻中的人體動(dòng)作進(jìn)行標(biāo)注,同時(shí)采用SLAM(同時(shí)定位與建圖)技術(shù)注釋攝像機(jī)的移動(dòng)軌跡。
- 合成數(shù)據(jù)生成:為了豐富數(shù)據(jù)集,HumanVid收集了無版權(quán)的3D角色資產(chǎn),并引入基于規(guī)則的攝像機(jī)軌跡生成方法,以模擬多樣化的攝像機(jī)。
- 模型訓(xùn)練:HumanVid建立了一個(gè)基線模型CamAnimate,考慮了人體及攝像機(jī)的作為條件,經(jīng)過在HumanVid數(shù)據(jù)集上的訓(xùn)練,能夠生成可控的人物姿勢(shì)與攝像機(jī)的視頻。
HumanVid的項(xiàng)目地址
- GitHub倉(cāng)庫(kù):https://github.com/zhenzhiwang/HumanVid
- arXiv技術(shù)論文:https://arxiv.org/pdf/2407.17438
HumanVid的應(yīng)用場(chǎng)景
- 視頻制作:為電影、電視及其他視頻內(nèi)容創(chuàng)作提供高質(zhì)量的動(dòng)畫生成,支持導(dǎo)演與制片人通過控制人物姿態(tài)與鏡頭,打造更生動(dòng)的場(chǎng)景。
- 游戲開發(fā):在電子游戲中,HumanVid能夠生成真實(shí)感極強(qiáng)的NPC(非玩家角色)動(dòng)畫,增強(qiáng)游戲的沉浸感與互動(dòng)性。
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí):在VR和AR應(yīng)用中,HumanVid可生成與用戶互動(dòng)的虛擬角色,提供更加自然流暢的體驗(yàn)。
- 教育與培訓(xùn):HumanVid能夠制作教學(xué)視頻,模擬人物動(dòng)作與場(chǎng)景,幫助學(xué)生更好地理解復(fù)雜概念。
常見問題
- HumanVid的數(shù)據(jù)集如何獲取?:HumanVid計(jì)劃于2024年9月底公開代碼及數(shù)據(jù)集,屆時(shí)可在其GitHub頁面找到相關(guān)信息。
- HumanVid支持哪些平臺(tái)?:HumanVid的數(shù)據(jù)集可在多種平臺(tái)上使用,主要面向研究人員和開發(fā)者。
- 如何參與HumanVid項(xiàng)目?:您可以通過訪問其GitHub頁面,關(guān)注項(xiàng)目進(jìn)展并參與討論。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...