AIGC動態歡迎閱讀
原標題:無需文本標注,TF-T2V把AI量產視頻的成本打下來了!華科阿里等聯合打造
關鍵字:視頻,數據,時序,文本,分支
文章來源:機器之心
內容字數:3210字
內容摘要:
機器之心專欄
機器之心編輯部在過去短短兩年內,隨著諸如LAION-5B 等大規模圖文數據集的開放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果驚人的圖片生成方法層出不窮。圖片生成領域可謂狂飆突進。
然而,與圖片生成相比,視頻生成仍存在巨大挑戰。首先,視頻生成需要處理更高維度的數據,考慮額外時間維度帶來的時序建模問題,因此需要更多的視頻 – 文本對數據來驅動時序動態的學習。然而,對視頻進行準確的時序標注非常昂貴。這限制了視頻 – 文本數據集的規模,如現有 WebVid10M 視頻數據集包含 10.7M 視頻 – 文本對,與 LAION-5B 圖片數據集在數據規模上相差甚遠,嚴重制約了視頻生成模型規?;臄U展。
為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯合研究團隊于近期發布了 TF-T2V 視頻方案:論文地址:https://arxiv.org/abs/2312.15770
項目主頁:https://tf-t2v.github.io/
即將開源代碼地址:https://github.com/ali-vilab/i2
原文鏈接:無需文本標注,TF-T2V把AI量產視頻的成本打下來了!華科阿里等聯合打造
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...