視頻生成新紀元:通信巨頭如何在多場景下實現(xiàn)人物形象的完美一致性
還能生成同步聲音

原標題:通信巨頭入局視頻生成,直接霸榜權威評測:人物跨越多場景依然一致
文章來源:量子位
內(nèi)容字數(shù):3498字
TeleAI視頻生成模型的嶄露頭角
近日,中國電信人工智能研究院(TeleAI)發(fā)布的新視頻生成模型——TeleAI-VAST,憑借其卓越的表現(xiàn),迅速在VBench評測中脫穎而出,成為眾多視頻生成模型中的佼佼者。該模型在16項子指標中獲得了9項第一名,并在物體分類和人體動作兩項上取得滿分100的佳績,顯示出其在視頻生成領域的強大實力。
技術創(chuàng)新與表現(xiàn)
TeleAI的視頻生成模型采用了獨特的“二階段視頻生成技術”架構。第一階段,通過多模態(tài)大型模型生成中間素材,稱為“故事板”,體現(xiàn)了場景的語義和結構。第二階段則是基于這些中間表示,結合文本描述生成最終視頻。這種分段式的生成方式,不僅提高了視頻生成的質(zhì)量,還能夠精確控制主體的動作和外觀。
多模態(tài)一致性與音畫同步
該模型在人物形象和動作的一致性上表現(xiàn)出色,能夠在不同場景下保持人物外觀的統(tǒng)一。同時,TeleAI視頻生成模型的音效與畫面內(nèi)容高度同步,包括艦船鳴笛、飛機起飛等聲音效果,進一步提升了視頻的真實感和沉浸感。
無限潛力的應用場景
TeleAI的視頻生成模型不僅具備強大的技術實力,還具備廣闊的應用前景。它允許創(chuàng)作者根據(jù)具體的分鏡頭生成視頻,保持人物一致性,從而實現(xiàn)生成無限長度的視頻。這一功能將為影視創(chuàng)作、廣告制作等領域帶來新的可能性。
未來展望與產(chǎn)品布局
TeleAI在發(fā)布這一視頻生成模型的同時,也展示了其整體大模型布局,包括涵蓋語義、語音、視覺等多模態(tài)的“星辰”大模型能力體系。未來,TeleAI將于明年開啟公測,期待其在AI影視領域的進一步應用和發(fā)展。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號