MOFA-Video是一個(gè)由騰訊AI實(shí)驗(yàn)室與東京大學(xué)研究人員共同開(kāi)發(fā)并開(kāi)源的可控圖像生成視頻模型。該技術(shù)利用生成場(chǎng)適應(yīng)器對(duì)靜態(tài)圖像進(jìn)行動(dòng)態(tài)處理,生成高質(zhì)量的視頻內(nèi)容。MOFA-Video基于預(yù)訓(xùn)練的Stable Video Diffusion模型,借助手動(dòng)軌跡、面部標(biāo)記序列或音頻等稀疏控制信號(hào),能夠精細(xì)調(diào)控視頻生成中的動(dòng)作。這一模型的創(chuàng)新之處在于,它不僅可以單獨(dú)使用這些控制信號(hào),還能以零樣本的方式進(jìn)行復(fù)雜動(dòng)畫(huà)制作,為用戶(hù)提供了一種全新的高可控性圖像動(dòng)畫(huà)解決方案。
MOFA-Video是什么
MOFA-Video是騰訊AI實(shí)驗(yàn)室和東京大學(xué)的研究者共同推出的開(kāi)源模型,旨在實(shí)現(xiàn)可控的圖像生成視頻。其核心技術(shù)是生成場(chǎng)適應(yīng)器,能夠?qū)㈧o態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)視頻。MOFA-Video在Stable Video Diffusion模型的基礎(chǔ)上,通過(guò)稀疏控制信號(hào)如手動(dòng)軌跡、面部標(biāo)記或音頻,實(shí)現(xiàn)對(duì)視頻中動(dòng)作的精細(xì)調(diào)控。無(wú)論是簡(jiǎn)單的動(dòng)畫(huà)還是復(fù)雜的場(chǎng)景,MOFA-Video都能通過(guò)組合不同的控制信號(hào),以零樣本的方式完成高質(zhì)量的動(dòng)畫(huà)生成。
主要功能
- 軌跡控制動(dòng)畫(huà):用戶(hù)可以在圖像上手動(dòng)繪制軌跡,從而指導(dǎo)MOFA-Video生成相應(yīng)的視頻動(dòng)畫(huà),適合需要精細(xì)控制物體或鏡頭移動(dòng)的場(chǎng)景。
- 面部關(guān)鍵點(diǎn)動(dòng)畫(huà):系統(tǒng)利用面部識(shí)別技術(shù)獲取的關(guān)鍵點(diǎn)數(shù)據(jù),實(shí)現(xiàn)逼真的面部表情和頭部動(dòng)作動(dòng)畫(huà)。
- 混合控制動(dòng)畫(huà):MOFA-Video支持將軌跡控制與面部關(guān)鍵點(diǎn)控制結(jié)合,生成同步的面部表情與身體動(dòng)作,創(chuàng)造復(fù)雜的多部分動(dòng)畫(huà)效果。
- 音頻驅(qū)動(dòng)面部動(dòng)畫(huà):通過(guò)分析音頻信號(hào),生成與語(yǔ)音或音樂(lè)同步的面部動(dòng)畫(huà),如口型同步等。
- 視頻驅(qū)動(dòng)面部動(dòng)畫(huà):利用參考視頻,MOFA-Video能夠讓靜態(tài)圖像中的面部動(dòng)作模仿視頻中的表情,實(shí)現(xiàn)動(dòng)態(tài)表現(xiàn)。
- 零樣本多模態(tài)控制:支持不同控制信號(hào)無(wú)須額外訓(xùn)練即可組合使用,提升動(dòng)畫(huà)生成的靈活性與多樣性。
- 長(zhǎng)視頻生成能力:通過(guò)周期性采樣策略,MOFA-Video可以生成比傳統(tǒng)模型更長(zhǎng)的視頻,突破幀數(shù)的限制。
- 用戶(hù)友好的界面操作:MOFA-Video提供基于Gradio的直觀(guān)界面,用戶(hù)無(wú)需專(zhuān)業(yè)編程技能即可輕松進(jìn)行動(dòng)畫(huà)生成。
產(chǎn)品官網(wǎng)
- 官方項(xiàng)目主頁(yè):https://myniuuu.github.io/MOFA_Video
- GitHub代碼庫(kù):https://github.com/MyNiuuu/MOFA-Video
- 基于軌跡的圖像動(dòng)畫(huà)Gradio演示和模型檢查點(diǎn):https://huggingface.co/MyNiuuu/MOFA-Video-Traj
- Gradio演示和混合控制圖像動(dòng)畫(huà)檢查點(diǎn):https://huggingface.co/MyNiuuu/MOFA-Video-Hybrid
應(yīng)用場(chǎng)景
MOFA-Video適用于多種場(chǎng)景,包括但不限于影視制作、游戲開(kāi)發(fā)、廣告創(chuàng)意和社交媒體內(nèi)容創(chuàng)作。無(wú)論是需要精確控制的動(dòng)畫(huà)場(chǎng)景,還是想要生成與音頻同步的動(dòng)態(tài)視頻,MOFA-Video都可以為創(chuàng)作者提供強(qiáng)大的支持。
常見(jiàn)問(wèn)題
1. MOFA-Video是否需要編程知識(shí)?
不需要。MOFA-Video提供了友好的用戶(hù)界面,任何人都可以輕松上手。
2. MOFA-Video支持哪些類(lèi)型的控制信號(hào)?
MOFA-Video支持軌跡控制、面部關(guān)鍵點(diǎn)、音頻驅(qū)動(dòng)和視頻驅(qū)動(dòng)等多種控制信號(hào)。
3. 如何獲取MOFA-Video的最新版本?
用戶(hù)可以訪(fǎng)問(wèn)其官方網(wǎng)站和GitHub代碼庫(kù)獲取最新版本和更新信息。