混元圖生視頻 – 騰訊混元開源的圖生視頻模型
混元圖生視頻是什么
混元圖生視頻是由騰訊混元團(tuán)隊(duì)推出的一款開源圖像生成視頻模型。用戶只需上傳一張圖片并簡(jiǎn)要描述,即可生成一段時(shí)長(zhǎng)為5秒的動(dòng)態(tài)視頻。該模型具備自動(dòng)化口型匹配、動(dòng)作驅(qū)動(dòng)和背景音效生成等多種功能,能夠應(yīng)用于寫實(shí)、動(dòng)漫及CGI等不同類型的角色和場(chǎng)景,擁有130億的參數(shù)量。混元圖生視頻模型現(xiàn)已在騰訊云上線,用戶可以通過混元AI視頻官網(wǎng)進(jìn)行體驗(yàn)。此外,該模型已在GitHub和HuggingFace等開發(fā)者社區(qū)開源,提供了權(quán)重、推理代碼及LoRA訓(xùn)練代碼,開發(fā)者可基于此進(jìn)行專屬LoRA等衍生模型的訓(xùn)練。

混元圖生視頻的主要功能
- 圖像生成視頻:用戶可以通過上傳一張圖片并提供簡(jiǎn)短描述,模型能夠?qū)㈧o態(tài)圖像轉(zhuǎn)化為5秒的短視頻,并且支持自動(dòng)生成背景音效。
- 音頻驅(qū)動(dòng)功能:用戶上傳人物圖片后,可以輸入文本或音頻,模型將準(zhǔn)確匹配嘴型,使圖片中的人物能夠“說話”或“唱歌”,并展現(xiàn)相應(yīng)的面部表情。
- 動(dòng)作驅(qū)動(dòng)功能:用戶上傳圖片后,選擇動(dòng)作模板,模型能夠讓圖片中的人物完成跳舞、揮手、做體操等動(dòng)作,適用于短視頻創(chuàng)作、游戲角色動(dòng)畫及影視制作。
- 高質(zhì)量視頻輸出:支持2K高清畫質(zhì),適合多種角色與場(chǎng)景,包括寫實(shí)、動(dòng)漫及CGI。
混元圖生視頻的技術(shù)原理
- 圖像到視頻生成框架:HunyuanVideo-I2V通過圖像潛在拼接技術(shù),將參考圖像的信息整合到視頻生成過程中。輸入圖像經(jīng)過預(yù)訓(xùn)練的多模態(tài)大型語言模型(MLLM)處理,生成語義圖像token,并與視頻潛在token拼接,以實(shí)現(xiàn)跨模態(tài)的全注意力計(jì)算。
- 多模態(tài)大型語言模型(MLLM):該模型采用Decoder-only結(jié)構(gòu)的MLLM作為文本編碼器,顯著增強(qiáng)了對(duì)輸入圖像語義內(nèi)容的理解能力。與傳統(tǒng)的CLIP或T5模型相比,MLLM在圖像細(xì)節(jié)描述和復(fù)雜推理方面表現(xiàn)更佳,能夠更好地實(shí)現(xiàn)圖像與文本描述的深度融合。
- 3D變分自編碼器(3D VAE):為高效處理視頻和圖像數(shù)據(jù),HunyuanVideo-I2V使用CausalConv3D技術(shù)訓(xùn)練了一個(gè)3D VAE,將像素空間中的視頻和圖像壓縮到緊湊的潛在空間。這種設(shè)計(jì)顯著減少了后續(xù)模型中的token數(shù)量,能夠在原始分辨率和幀率下進(jìn)行訓(xùn)練。
- 雙流轉(zhuǎn)單流的混合模型設(shè)計(jì):在雙流階段,視頻和文本token通過多個(gè)Transformer塊處理,避免相互干擾;在單流階段,將視頻和文本token連接起來,進(jìn)行多模態(tài)信息融合。這種設(shè)計(jì)捕捉了視覺和語義信息之間的復(fù)雜交互,提升了生成視頻的連貫性和語義一致性。
- 漸進(jìn)式訓(xùn)練策略:模型采用漸進(jìn)式訓(xùn)練策略,從低分辨率、短視頻逐步過渡到高分辨率、長(zhǎng)視頻,提高了模型的收斂速度,確保了生成視頻在不同分辨率下的高質(zhì)量。
- 提示詞重寫模型:為解決用戶提示詞的語言風(fēng)格和長(zhǎng)度多變性問題,HunyuanVideo-I2V引入了提示詞重寫模塊,能夠?qū)⒂脩糨斎氲奶崾驹~轉(zhuǎn)換為模型更易理解的格式,提高生成效果。
- 可定制化LoRA訓(xùn)練:模型支持LoRA(Low-Rank Adaptation)訓(xùn)練,開發(fā)者可以通過少量數(shù)據(jù)訓(xùn)練出具有特定效果的視頻生成模型,例如“頭發(fā)生長(zhǎng)”或“人物動(dòng)作”等特效。
產(chǎn)品官網(wǎng)
- Github倉庫: https://github.com/Tencent/HunyuanVideo-I2V
- Huggingface模型庫:https://huggingface.co/tencent/HunyuanVideo-I2V
- 混元AI視頻官網(wǎng):騰訊混元AI視頻官網(wǎng)
混元圖生視頻的應(yīng)用場(chǎng)景
- 創(chuàng)意視頻生成:用戶可以通過上傳圖片和描述生成富有創(chuàng)意的短視頻。
- 特效制作:通過LoRA訓(xùn)練實(shí)現(xiàn)個(gè)性化特效,如頭發(fā)生長(zhǎng)、人物動(dòng)作等。
- 動(dòng)畫與游戲開發(fā):快速生成角色動(dòng)畫,降作成本,提高開發(fā)效率。
常見問題
- 如何使用混元圖生視頻?用戶可以訪問騰訊混元AI視頻官網(wǎng),選擇圖生視頻,上傳一張圖片并輸入簡(jiǎn)短描述即可生成短視頻。
- 對(duì)開發(fā)者的支持有哪些?開發(fā)者可以通過騰訊云申請(qǐng)API接口,或在GitHub上下載開源模型進(jìn)行本地部署和定制化開發(fā)。
- 硬件要求是什么?最低要求為NVIDIA顯卡,支持CUDA,顯存至少60GB(生成720p視頻),推薦80GB顯存,操作系統(tǒng)需為L(zhǎng)inux。

? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)