阿里通義實驗室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來丨GenAICon 2024

AIGC動態2年前 (2024)發布智東西

AIGC動態歡迎閱讀

原標題：阿里通義實驗室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來丨GenAICon 2024
關鍵字：視頻,人物,模型,解讀,框架
文章來源：智東西
內容字數：10435字

內容摘要：

四大框架玩轉AI人物視頻生成，已落地通義千問APP。
2024中國生成式AI大會于4月18-19日在北京舉行，在大會首日的主會場開幕式上，阿里巴巴通義實驗室XR團隊負責人薄列峰博士以《人物視頻生成新范式》為題發表演講。
隨著Sora等文生視頻模型掀起熱潮，很多人都在探討文生視頻模型能不能算作世界模型。對此，薄列峰認為，文生視頻模型與世界模型的機制存在差異，視頻是一個觀察者角色，并不能真正改變世界，文字與物理世界描述之間也具有不對應關系。
人物視頻生成模型是阿里通義實驗室XR團隊的一個研究重點。薄列峰通過人物動作、人物換裝、人物替身、人物唱演4個框架來解讀人物視頻生成新范式。基于這些框架的應用，正逐步落地通義千問APP。
人物動作視頻生成框架Animate Anyone可基于單張圖和動作序列，輸出穩定、可控的人物動作視頻；人物換裝視頻生成框架Outfit Anyone是基于服飾圖和人物形象；人物視頻角色替換框架Motionshop采用Video2Motion，基于視頻人物動作驅動3D數字人；人物唱演視頻生成框架Emote Portrait Alive能夠基于單張圖和音頻，輸出準確、生動的

原文鏈接：阿里通義實驗室薄列峰：從兵馬俑跳“科目三”到照片唱歌，四大框架讓AI生成的人物活起來丨GenAICon 2024