130 億參數,是當前最大的視頻開源模型。
原標題:發布即開源,又一大廠入局 AI 視頻生成
文章來源:特工宇宙
內容字數:2989字
騰訊科技發布AI視頻生成大模型:混元的崛起
在過去的一年中,AI視頻技術快速發展,吸引了眾多關注。昨日,騰訊科技發布了一篇名為《AI 視頻的后 Sora 時代》的文章,深入探討了這一領域的進步與變化。文章不僅回顧了Sora的影響力,也展示了國內團隊在AI視頻生成方面的卓越貢獻,令人欣慰。
混元的驚喜發布
就在大家對AI視頻技術充滿期待之時,騰訊混元發布了其全新的視頻生成大模型,并決定開源。我們有幸獲得了內測資格,盡管生成視頻的長度僅為五秒,但其質量和信息量卻讓我們大為驚嘆。這一模型的表現不僅超乎我們的預期,更為我們展示了AI視頻生成的無限可能。
出色的生成效果
混元模型生成的視頻不僅具備高清質感和真實感,還展現出流暢自然的動作和強大的指令遵循能力。這與之前使用的模型形成了鮮明對比,混元更像是“別人家的孩子”,無論在指令理解還是畫面表現上都表現得相當優秀。此外,支持原生多角度視角切換的功能讓我們感受到其靈動性,測試過程中同事甚至誤以為我在觀看電視劇。
技術創新的背后
混元模型之所以能夠取得如此出色的效果,主要歸功于以下三個創新:
- 新一代語言模型的適配:混元模型采用了最新的多模態大語言模型(MLLM)作為文本編碼器,使其在處理復雜場景描述時展現出強大的語義理解能力。
- 自研3D視覺編碼器:該技術支持混合圖片和視頻訓練,優化了編碼器訓練算法,顯著提升了視頻在細節呈現方面的表現,尤其是在快速動作和面部細節方面。
- 全注意力機制的應用:這一機制確保了視頻每一幀的無縫銜接,使得視頻流暢性和主體一致性得到了有效保障。
開放與合作的未來
騰訊混元已將這款視頻生成大模型進行了開源,包含模型權重、推理代碼等完整資源,供企業和個人進行開發和應用。總參數量高達130億,使其成為當前最大的視頻開源模型。在與國內外頂尖模型的對比中,混元在多個維度的表現均領先,尤其在人物和人造場景方面更是表現突出。
這一切令人期待,如果你也想體驗這一技術的魅力,可以通過騰訊元寶APP提交申請試用。此外,企業客戶還可以通過騰訊云進行服務接入,API也已開放內測申請。
結語
混元視頻生成大模型的發布不僅是AI視頻技術的一次重要進步,更是國內團隊在國際舞臺上的一次亮相。未來,隨著技術的不斷發展與開源生態的完善,我們有理由相信AI視頻生成將迎來更廣闊的應用前景。
聯系作者
文章來源:特工宇宙
作者微信:
作者簡介:Agent Universe,專注于智能體的AI科技媒體。
相關文章
