阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律
AIGC動態(tài)歡迎閱讀
原標題:阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律
關鍵字:軌跡,視頻,架構,研究者,方法
文章來源:機器之心
內容字數(shù):0字
內容摘要:
機器之心報道
編輯:陳陳、杜偉你規(guī)定路線,Tora 來生成相應軌跡的視頻。目前,擴散模型能夠生成多樣化且高質量的圖像或視頻。此前,視頻擴散模型采用 U-Net 架構 ,主要側重于合成有限時長(通常約為兩秒)的視頻,并且分辨率和縱橫比受到固定限制。
Sora 的出現(xiàn)打破了這一限制,其采用 Diffusion Transformer(DiT)架構,不僅擅長制作 10 到 60 秒的高質量視頻,而且還因其生成不同分辨率、各種縱橫比、且遵守實際物理定律的能力而脫穎而出。
可以說 Sora 是 DiT 架構最有利的證明,然而,基于 Transformer 的擴散模型在有效生成可控動作視頻方面還未被充分探索。
針對這一問題,來自阿里的研究者提出了 Tora,這是第一個面向軌跡的 DiT 架構,它將文本、視覺和軌跡條件同時集成在一起以生成視頻。Tora 的設計與 DiT 的可擴展性無縫契合,允許精確控制具有不同持續(xù)時間、寬高比和分辨率的視頻內容。大量實驗證明,Tora 在實現(xiàn)高保真度方面表現(xiàn)出色,同時還能細致模擬物理世界的。論文地址:https://arxiv.org/pdf/2407.21
原文鏈接:阿里「軌跡可控版Sora」,告別「抽卡」,讓視頻生成更符合物理規(guī)律
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...