還能生成同步聲音
TeleAI視頻生成模型的嶄露頭角
近日,中國電信人工智能研究院(TeleAI)發布的新視頻生成模型——TeleAI-VAST,憑借其卓越的表現,迅速在VBench評測中脫穎而出,成為眾多視頻生成模型中的佼佼者。該模型在16項子指標中獲得了9項第一名,并在物體分類和人體動作兩項上取得滿分100的佳績,顯示出其在視頻生成領域的強大實力。
技術創新與表現
TeleAI的視頻生成模型采用了獨特的“二階段視頻生成技術”架構。第一階段,通過多模態大型模型生成中間素材,稱為“故事板”,體現了場景的語義和結構。第二階段則是基于這些中間表示,結合文本描述生成最終視頻。這種分段式的生成方式,不僅提高了視頻生成的質量,還能夠精確控制主體的動作和外觀。
多模態一致性與音畫同步
該模型在人物形象和動作的一致性上表現出色,能夠在不同場景下保持人物外觀的統一。同時,TeleAI視頻生成模型的音效與畫面內容高度同步,包括艦船鳴笛、飛機起飛等聲音效果,進一步提升了視頻的真實感和沉浸感。
無限潛力的應用場景
TeleAI的視頻生成模型不僅具備強大的技術實力,還具備廣闊的應用前景。它允許創作者根據具體的分鏡頭生成視頻,保持人物一致性,從而實現生成無限長度的視頻。這一功能將為影視創作、廣告制作等領域帶來新的可能性。
未來展望與產品布局
TeleAI在發布這一視頻生成模型的同時,也展示了其整體大模型布局,包括涵蓋語義、語音、視覺等多模態的“星辰”大模型能力體系。未來,TeleAI將于明年開啟公測,期待其在AI影視領域的進一步應用和發展。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...