Tora是一款由阿里巴巴推出的先進AI視頻生成框架,它利用軌跡導向的擴散變換器(DiT)技術(shù),將文本、視覺信息和軌跡相結(jié)合,創(chuàng)造出高質(zhì)量且符合現(xiàn)實物理動態(tài)的視頻內(nèi)容。該產(chǎn)品包括軌跡提取器、時空DiT以及引導融合器,能夠精確掌控視頻的動態(tài)表現(xiàn),支持生成最長達204幀、720p分辨率的視頻。這一技術(shù)在真實感和模擬現(xiàn)實物理動態(tài)方面表現(xiàn)卓越,為視頻制作行業(yè)帶來了新的強大工具。
Tora是什么
Tora是阿里巴巴推出的一款AI視頻生成框架,通過軌跡導向的擴散變換器(DiT)技術(shù),將文本、視覺信息和軌跡條件整合在一起,生成高品質(zhì)且符合物理規(guī)律的視頻內(nèi)容。Tora由軌跡提取器、時空DiT和引導融合器三部分組成,能夠精確控制視頻中的動態(tài)表現(xiàn),支持長達204幀的720p高清制作。Tora在表現(xiàn)的真實感和模擬現(xiàn)實動態(tài)方面具有顯著優(yōu)勢,為視頻生成領(lǐng)域提供了強大的新工具。
Tora的主要功能
簡單來說,Tora能夠根據(jù)用戶提供的指令(如文字描述、圖片或物體移動的路徑),生成真實且流暢的視頻內(nèi)容。
- 軌跡提取器(Trajectory Extractor, TE):將輸入的軌跡轉(zhuǎn)化為層次化的時空塊,這些塊與視頻內(nèi)容的潛在空間相匹配。
- 時空擴散變換器(Spatial-Temporal DiT):結(jié)合空間和時間的自注意力機制,處理視頻數(shù)據(jù),使模型能夠理解和生成連貫的視頻。
- 引導融合器(Motion-guidance Fuser, MGF):負責將軌跡提取器生成的時空塊整合到DiT模型中,確保生成的視頻內(nèi)容遵循預定的軌跡和動態(tài)。
Tora的技術(shù)原理
- 軌跡理解:Tora利用“軌跡提取器”工具,能夠理解給定的軌跡信息。如同提供一張地圖,指引視頻中物體應在何處及如何移動。
- 時空編碼:Tora將這些軌跡信息轉(zhuǎn)化為特殊編碼,稱為“時空塊”,它們?nèi)缤曨l的骨架,決定視頻中物體的方式。
- 視頻生成框架:Tora采用了先進的“擴散變換器”(DiT)技術(shù),結(jié)合擴散模型與變換器的優(yōu)點,使其能夠生成高質(zhì)量的視頻。
- 動態(tài)融合:Tora的“引導融合器”將時空塊與視頻內(nèi)容相結(jié)合,確保生成的視頻不僅畫面美觀,且物體自然流暢。
- 兩階段訓練:為提升對的理解和生成能力,Tora通過兩階段訓練,學習從密集光流中提取信息,并根據(jù)用戶提供的簡單軌跡信息生成視頻。
- 數(shù)據(jù)預處理:在訓練前,Tora需對視頻數(shù)據(jù)進行處理,將長視頻根據(jù)場景檢測分割為短片段,并根據(jù)美學評分與分割結(jié)果選擇訓練視頻片段。
Tora的項目地址
- 項目官網(wǎng):https://ali-videoai.github.io/tora_video/
- GitHub倉庫:https://github.com/ali-videoai/Tora
- arXiv技術(shù)論文:https://arxiv.org/pdf/2407.21705
Tora的應用場景
- 影視制作:Tora可用于生成電影、電視劇或短片中的特效場景,通過軌跡控制生成復雜的動態(tài)畫面,從而節(jié)省拍攝成本和時間。
- 動畫創(chuàng)作:在動畫領(lǐng)域,Tora可以根據(jù)腳本自動生成動畫序列,為動畫師提供初步動態(tài)草圖,加速創(chuàng)作進程。
- 虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR):Tora可生成與用戶互動的動態(tài)環(huán)境,為VR和AR應用提供逼真的視覺效果。
- 游戲開發(fā):在電子游戲開發(fā)中,Tora可以迅速生成游戲環(huán)境和角色動畫,提高游戲設(shè)計的效率。
常見問題
- Tora支持哪些格式的視頻生成? Tora支持720p分辨率的視頻生成,最長可達204幀。
- 如何獲取Tora的使用指南? 使用指南可在Tora的官網(wǎng)和GitHub倉庫中找到。
- Tora的適用范圍有哪些? Tora適用于影視制作、動畫創(chuàng)作、VR/AR應用以及游戲開發(fā)等多個領(lǐng)域。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...