音樂引領舞蹈新紀元：清華大學Lodge項目打破短時生成瓶頸！

能夠在給定音樂條件下生成極長舞蹈序列的網絡。

原標題：音樂驅動長序列舞蹈生成新突破！清華大學提出Lodge，解決短時難題 | 一作李镕輝博士主講預告
文章來源：智猩猩GenAI
內容字數：2625字

1. 引言

近年來，生成式人工智能技術的快速發展為短時舞蹈生成提供了新的可能性。然而，實際舞蹈表演的時長往往超過短時段，社交舞持續3至5分鐘，舞蹈劇可能長達15分鐘以上。這使得現有技術在生成高質量長序列舞蹈動作時面臨顯著挑戰。如何在細節和全局結構之間取得平衡，成為一個亟待解決的核心問題。

2. Lodge的提出

清華大學在讀博士李镕輝提出了Lodge，一個能夠在音樂條件下生成極長舞蹈序列的網絡。Lodge采用兩階段粗到細的擴散架構，引入具有表現力的特征舞蹈原語，作為連接兩個擴散模型的中間表示。這一設計有效平衡了全局編舞模式與局部動作的質量與表現力，為極長舞蹈序列的生成提供了新的解決方案。

3. 兩階段擴散架構

Lodge通過全局擴散和局部擴散兩個階段實現長舞蹈序列生成。全局擴散階段利用Transformer網絡從音樂中提取節奏和結構信息，生成稀疏的特征舞蹈原語（8幀關鍵動作），以捕捉全局編排模式。這些原語的表達性和語義豐富性為后續局部擴散提供了關鍵指導。

在局部擴散階段，框架以舞蹈原語為引導，生成細節豐富的短舞蹈片段，確保片段之間的連續性和表現力。硬提示原語用于片段連接，而軟提示原語則提升動作的質量與多樣性，最終生成兼具全局編排和局部細節的高質量長舞蹈序列。

4. 實驗與結果

Lodge在FineDance和AIST++數據集上進行了實驗。FineDance的數據集平均舞蹈時長152.3秒，遠高于AIST++的13.3秒，成為主要的訓練和測試數據集。實驗結果顯示，Lodge在用戶研究和標準指標的評估中取得了最先進的結果，生成的樣本能夠并行生成符合編舞規則的舞蹈，同時保留局部細節和物理真實感。

得益于Lodge的并行生成架構，即使生成更長的舞蹈序列，推理時間也不會顯著增加。

5. 講座信息與研究方向

李镕輝將于12月17日19:00參與智猩猩AI新青年講座，主題為《音樂驅動的高質量長序列舞蹈生成》。他目前是清華大學博士生，研究方向包括人體動作建模與生成、AI編舞、數字人交互等，已在多個國際會議和期刊上發表論文。

感興趣的朋友可通過添加小助手“米婭”進行報名參加，直播將為觀眾提供更深入的理解與交流機會。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下公眾號之一，深入關注大模型與AI智能體，及時搜羅生成式AI技術產品。

閱讀原文

# AIGC動態 # 人工智能 # 清華大學 # 短時難題 # 長序列生成 # 音樂驅動舞蹈

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

音樂引領舞蹈新紀元：清華大學Lodge項目打破短時生成瓶頸！

能夠在給定音樂條件下生成極長舞蹈序列的網絡。

1. 引言

2. Lodge的提出

3. 兩階段擴散架構

4. 實驗與結果

5. 講座信息與研究方向

聯系作者

《AI安全指數首揭曉：國內企業嶄露頭角，高分僅C分引發熱議！》

Ilya錯了，預訓練沒結束！LeCun等反擊，「小模型時代」讓奧特曼預言成真

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點