通過超大數據、130億參數和自研3D架構提升視頻生成能力。
騰訊混元大模型視頻生成能力正式上線
2023年12月3日,騰訊混元大模型發布了其最新的視頻生成能力。這一技術進步是在文生文、文生圖和3D生成之后的又一重要里程碑。騰訊混元多模態生成技術負責人凱撒介紹了HunYuan-Video模型的四項核心改進,旨在提升視頻生成的質量和可控性。
1. 模型核心技術升級
HunYuan-Video模型的四項關鍵技術升級包括:首先,采用超大規模的數據處理系統,提升視頻畫質;其次,引入多模態大語言模型(MLLM),優化文本與圖像的對齊;第三,使用130億參數的全注意力機制(DIT),增強時空建模與動態表現;最后,采用自研的3D VAE架構,提升圖像和視頻的重建能力。這些升級確保了視頻生成的質量和流暢度。
2. 微調與應用拓展
在預訓練后,HunYuan-Video進行六個關鍵領域的微調,進一步提升定向能力。這些包括畫質優化、高動態效果、藝術鏡頭等。此外,模型還推出了Recaption模型,提供常規模式和導演模式,分別適用于專業用戶和非專業用戶。
3. 性能評估與市場競爭
經過千題盲測,混元大模型在總體表現上領先于其他模型,尤其在處理人文場景和多主體組合場景時表現突出。盡管如此,行業內視頻生成技術整體成功率仍然較低,亟待優化。
4. 視頻配音與數字人技術
除了基礎的視頻生成能力,騰訊還推出了視頻配音與配樂功能,增強視頻的完整性。此外,數字人技術的應用使得用戶可以通過語音和姿態控制照片數字人的動態表現,提升生成內容的自然度和一致性。
5. 開源發布與未來展望
騰訊已將HunYuan-Video模型開源,供企業與個人開發者使用。這一舉措標志著騰訊混元系列模型的全面開源,進一步促進了生態的發展。未來,騰訊計劃逐步提升視頻分辨率,目標是實現4K乃至8K的清晰度和細節表現。
6. 結語
隨著騰訊混元大模型視頻生成能力的發布,AI視頻生成領域的競爭愈發激烈。騰訊的開源戰略將可能吸引更多開發者參與,推動技術的進步和應用的拓展。
聯系作者
文章來源:智東西
作者微信:
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。