能夠在給定音樂條件下生成極長舞蹈序列的網絡。
原標題:音樂驅動長序列舞蹈生成新突破!清華大學提出Lodge,解決短時難題 | 一作李镕輝博士主講預告
文章來源:智猩猩GenAI
內容字數:2625字
1. 引言
近年來,生成式人工智能技術的快速發展為短時舞蹈生成提供了新的可能性。然而,實際舞蹈表演的時長往往超過短時段,社交舞持續3至5分鐘,舞蹈劇可能長達15分鐘以上。這使得現有技術在生成高質量長序列舞蹈動作時面臨顯著挑戰。如何在細節和全局結構之間取得平衡,成為一個亟待解決的核心問題。
2. Lodge的提出
清華大學在讀博士李镕輝提出了Lodge,一個能夠在音樂條件下生成極長舞蹈序列的網絡。Lodge采用兩階段粗到細的擴散架構,引入具有表現力的特征舞蹈原語,作為連接兩個擴散模型的中間表示。這一設計有效平衡了全局編舞模式與局部動作的質量與表現力,為極長舞蹈序列的生成提供了新的解決方案。
3. 兩階段擴散架構
Lodge通過全局擴散和局部擴散兩個階段實現長舞蹈序列生成。全局擴散階段利用Transformer網絡從音樂中提取節奏和結構信息,生成稀疏的特征舞蹈原語(8幀關鍵動作),以捕捉全局編排模式。這些原語的表達性和語義豐富性為后續局部擴散提供了關鍵指導。
在局部擴散階段,框架以舞蹈原語為引導,生成細節豐富的短舞蹈片段,確保片段之間的連續性和表現力。硬提示原語用于片段連接,而軟提示原語則提升動作的質量與多樣性,最終生成兼具全局編排和局部細節的高質量長舞蹈序列。
4. 實驗與結果
Lodge在FineDance和AIST++數據集上進行了實驗。FineDance的數據集平均舞蹈時長152.3秒,遠高于AIST++的13.3秒,成為主要的訓練和測試數據集。實驗結果顯示,Lodge在用戶研究和標準指標的評估中取得了最先進的結果,生成的樣本能夠并行生成符合編舞規則的舞蹈,同時保留局部細節和物理真實感。
得益于Lodge的并行生成架構,即使生成更長的舞蹈序列,推理時間也不會顯著增加。
5. 講座信息與研究方向
李镕輝將于12月17日19:00參與智猩猩AI新青年講座,主題為《音樂驅動的高質量長序列舞蹈生成》。他目前是清華大學博士生,研究方向包括人體動作建模與生成、AI編舞、數字人交互等,已在多個國際會議和期刊上發表論文。
感興趣的朋友可通過添加小助手“米婭”進行報名參加,直播將為觀眾提供更深入的理解與交流機會。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。