Tora官網(wǎng)
阿里巴巴推出的AI視頻生成框架,基于軌跡導(dǎo)向的擴(kuò)散變換器(DiT)技術(shù),能夠?qū)⑽谋尽⒁曈X(jué)和軌跡條件融合,生成高質(zhì)量且符合物理世界的動(dòng)態(tài)視頻。
網(wǎng)站提供:Ai工具箱,Ai視頻生成,Tora。

Tora簡(jiǎn)介
Tora:
阿里Tora視頻是阿里巴巴推出的ai視頻生成框架,基于軌跡導(dǎo)向的擴(kuò)散變換器(DiT)技術(shù),能夠?qū)⑽谋尽⒁曈X(jué)和軌跡條件融合,生成高質(zhì)量且符合物理世界的動(dòng)態(tài)視頻。

Tora主要功能特點(diǎn):
軌跡導(dǎo)向的視頻生成:Tora能夠根據(jù)給定的軌跡生成視頻,保持的一致性和準(zhǔn)確性。軌跡提取器(Trajectory Extractor, TE)將輸入的軌跡轉(zhuǎn)換成層次化的時(shí)空塊,這些塊與視頻內(nèi)容的潛在空間相匹配。
多模態(tài)輸入整合:Tora支持文本、圖像和軌跡條件的同時(shí)輸入,實(shí)現(xiàn)多維度的視頻內(nèi)容控制。這意味著用戶可以通過(guò)文字描述、圖片或物體移動(dòng)的路線來(lái)生成視頻。
高分辨率視頻輸出:Tora能夠在720p的高分辨率下生成長(zhǎng)達(dá)204幀的視頻,保證視頻質(zhì)量。這使得生成的視頻不僅畫(huà)面清晰,而且流暢。
物理世界動(dòng)態(tài)模擬:Tora生成的視頻效果貼近現(xiàn)實(shí)世界的物理動(dòng)態(tài),如重力和動(dòng)力學(xué)原理。通過(guò)時(shí)空擴(kuò)散變換器(Spatial-Temporal DiT),Tora能夠處理視頻數(shù)據(jù),使模型理解和生成具有連貫的視頻。
靈活的內(nèi)容創(chuàng)作:Tora支持不同時(shí)長(zhǎng)、寬高比和分辨率的視頻生成,滿足多樣化的創(chuàng)作需求。無(wú)論是短視頻還是長(zhǎng)視頻,無(wú)論是標(biāo)準(zhǔn)寬高比還是自定義寬高比,Tora都能適應(yīng)。
引導(dǎo)融合器(Motion-guidance Fuser, MGF):該組件負(fù)責(zé)將軌跡提取器生成的時(shí)空塊整合到DiT模型中,確保生成的視頻內(nèi)容遵循預(yù)定的軌跡和動(dòng)態(tài)。MGF通過(guò)自適應(yīng)歸一化層將補(bǔ)丁整合到DiT塊中,精確控制視頻內(nèi)容的動(dòng)態(tài)。
兩階段訓(xùn)練策略:為了讓Tora更好地理解和生成,通過(guò)一個(gè)兩階段的訓(xùn)練過(guò)程來(lái)學(xué)習(xí)。首先使用密集光流進(jìn)行訓(xùn)練,然后使用稀疏軌跡進(jìn)行微調(diào),提高模型對(duì)控制的靈活性和準(zhǔn)確性。
數(shù)據(jù)預(yù)處理:在訓(xùn)練之前,Tora需要對(duì)視頻數(shù)據(jù)進(jìn)行一些處理,比如根據(jù)場(chǎng)景檢測(cè)將長(zhǎng)視頻分割成短片段,然后根據(jù)美學(xué)評(píng)分和分割結(jié)果選擇適合訓(xùn)練的視頻片段。
Tora主要功能模塊
軌跡提取器(Trajectory Extractor, TE):將輸入的軌跡轉(zhuǎn)換成層次化的時(shí)空塊,這些塊與視頻內(nèi)容的潛在空間相匹配。
時(shí)空擴(kuò)散變換器(Spatial-Temporal DiT):結(jié)合空間和時(shí)間的自注意力機(jī)制,處理視頻數(shù)據(jù),使模型能夠理解和生成具有連貫的視頻。
引導(dǎo)融合器(Motion-guidance Fuser, MGF):負(fù)責(zé)將軌跡提取器生成的時(shí)空塊整合到DiT模型中,確保生成的視頻內(nèi)容遵循預(yù)定的軌跡和動(dòng)態(tài)。
Tora應(yīng)用場(chǎng)景:
影視制作:在影視制作中,Tora可以用于生成電影、電視劇或短片中的特效場(chǎng)景,通過(guò)軌跡控制生成復(fù)雜的動(dòng)態(tài)畫(huà)面,減少實(shí)際拍攝成本和時(shí)間。
動(dòng)畫(huà)創(chuàng)作:根據(jù)腳本自動(dòng)生成動(dòng)畫(huà)序列,為動(dòng)畫(huà)師提供初步的動(dòng)態(tài)草圖,加速創(chuàng)作過(guò)程。
虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):生成與用戶互動(dòng)的動(dòng)態(tài)環(huán)境,為VR和AR應(yīng)用提供逼真的視覺(jué)效果。
游戲開(kāi)發(fā):快速生成游戲環(huán)境和角色動(dòng)畫(huà),提高游戲設(shè)計(jì)的效率。
Tora訪問(wèn)方法:
Tora項(xiàng)目官網(wǎng):https://ali-videoai.github.io/tora_video/
Tora GitHub倉(cāng)庫(kù):https://github.com/ali-videoai/Tora
Tora arXiv技術(shù)論文:https://arxiv.org/pdf/2407.21705
總的來(lái)說(shuō),Tora生成的視頻質(zhì)量非常高,能夠生成10到60秒的高分辨率視頻,并且在不同分辨率和縱橫比下表現(xiàn)出色。Tora的視頻不僅流暢,而且能夠細(xì)致地模擬物理世界的。Tora的軌跡控制功能也得到了用戶的高度評(píng)價(jià)。
Tora官網(wǎng)入口網(wǎng)址
https://ali-videoai.github.io/tora_video/
OpenI小編發(fā)現(xiàn)Tora網(wǎng)站非常受用戶歡迎,請(qǐng)?jiān)L問(wèn)Tora網(wǎng)址入口試用。
數(shù)據(jù)評(píng)估
本站OpenI提供的Tora都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2024年 8月 5日 下午12:01收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。


粵公網(wǎng)安備 44011502001135號(hào)