SkyReels-A1

SkyReels-A1 – 昆侖萬維開源的表情動(dòng)作可控算法

SkyReels-A1是昆侖萬維推出的中國(guó)首個(gè)SOTA（State-of-the-Art）級(jí)別的基于視頻基座模型的表情動(dòng)作可控算法，它能夠生成高度逼真的動(dòng)態(tài)視頻，并實(shí)現(xiàn)對(duì)人物表情和動(dòng)作的精確控制。該算法支持多種人體比例的生成，如肖像、半身和全身，確保在生成過程中保持身份一致性。

SkyReels-A1是什么

SkyReels-A1是昆侖萬維開發(fā)的中國(guó)首個(gè)基于視頻基座模型的SOT別表情動(dòng)作可控算法。它能夠生成更為精準(zhǔn)和可控的人物視頻，適用于各種人體比例（包括肖像、半身和全身），并實(shí)現(xiàn)高度真實(shí)的動(dòng)態(tài)效果。SkyReels-A1通過精準(zhǔn)模擬人物的表情變化、情緒、皮膚質(zhì)感及身體動(dòng)作等細(xì)節(jié)，達(dá)到高保真的微表情還原。該系統(tǒng)支持側(cè)臉表情控制、眉眼微表情生成，并能夠進(jìn)行更為廣泛的頭部和身體動(dòng)作，其效果超過了同類產(chǎn)品。

SkyReels-A1

SkyReels-A1的主要功能

高保真肖像動(dòng)畫生成：能夠從靜態(tài)肖像生成動(dòng)態(tài)視頻，支持多種身體比例（如頭部、半身、全身）。精確地將驅(qū)動(dòng)視頻中的表情和動(dòng)作遷移到目標(biāo)肖像上，同時(shí)保持身份一致性。
表情和動(dòng)作的精準(zhǔn)控制：支持復(fù)雜表情（如細(xì)微的眉眼動(dòng)作和嘴唇）以及全身動(dòng)作的自然遷移。提供高保真的表情捕捉和動(dòng)作驅(qū)動(dòng)能力，適合用于虛擬形象、遠(yuǎn)程通信和數(shù)字媒體生成。
身份保持與自然融合：在動(dòng)畫生成過程中，確保生成的人物與原始肖像保持高度一致，避免身份失真。

SkyReels-A1的技術(shù)原理

視頻擴(kuò)散模型：基于逐步逆轉(zhuǎn)噪聲過程，將隨機(jī)噪聲轉(zhuǎn)化為結(jié)構(gòu)化的視頻內(nèi)容。擴(kuò)散模型通過估計(jì)每個(gè)時(shí)間步的噪聲，逐步生成高質(zhì)量的視頻幀，結(jié)合基于Transformer的自注意力機(jī)制，以捕捉視頻中的時(shí)空信息，生成連貫且自然的動(dòng)態(tài)內(nèi)容。
表情感知地標(biāo)：提取驅(qū)動(dòng)視頻中的表情地標(biāo)（如面部關(guān)鍵點(diǎn)），作為動(dòng)畫生成的描述符。利用3D神經(jīng)渲染模塊，精確捕捉細(xì)微的表情變化（如眉毛和嘴唇的動(dòng)作），融入生成過程中。
時(shí)空對(duì)齊地標(biāo)引導(dǎo)模塊：采用3D因果編碼器將地標(biāo)信息映射到視頻的潛在空間，確保驅(qū)動(dòng)信號(hào)與生成視頻的時(shí)空一致性，增強(qiáng)信號(hào)的捕捉能力，確保生成視頻的連貫性。
面部圖像-文本對(duì)齊模塊：將面部特征映射到文本特征空間，提升身份一致性。通過融合視覺和文本特征，提高生成結(jié)果的準(zhǔn)確性和身份保留能力。
分階段訓(xùn)練策略：
- 動(dòng)作驅(qū)動(dòng)訓(xùn)練：專注于將動(dòng)作條件融入視頻生成過程，優(yōu)化表示。
- 身份保持訓(xùn)練：優(yōu)化面部特征的投影層，增強(qiáng)身份一致性。
- 多模塊聯(lián)合微調(diào)：聯(lián)合優(yōu)化所有模塊，提升模型的泛化能力和生成質(zhì)量。