無需文本標(biāo)注,TF-T2V把AI量產(chǎn)視頻的成本打下來了!華科阿里等聯(lián)合打造

AIGC動態(tài)歡迎閱讀
原標(biāo)題:無需文本標(biāo)注,TF-T2V把AI量產(chǎn)視頻的成本打下來了!華科阿里等聯(lián)合打造
關(guān)鍵字:視頻,數(shù)據(jù),時序,文本,分支
文章來源:機器之心
內(nèi)容字數(shù):3210字
內(nèi)容摘要:
機器之心專欄
機器之心編輯部在過去短短兩年內(nèi),隨著諸如LAION-5B 等大規(guī)模圖文數(shù)據(jù)集的開放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果驚人的圖片生成方法層出不窮。圖片生成領(lǐng)域可謂狂飆突進。
然而,與圖片生成相比,視頻生成仍存在巨大挑戰(zhàn)。首先,視頻生成需要處理更高維度的數(shù)據(jù),考慮額外時間維度帶來的時序建模問題,因此需要更多的視頻 – 文本對數(shù)據(jù)來驅(qū)動時序動態(tài)的學(xué)習(xí)。然而,對視頻進行準(zhǔn)確的時序標(biāo)注非常昂貴。這限制了視頻 – 文本數(shù)據(jù)集的規(guī)模,如現(xiàn)有 WebVid10M 視頻數(shù)據(jù)集包含 10.7M 視頻 – 文本對,與 LAION-5B 圖片數(shù)據(jù)集在數(shù)據(jù)規(guī)模上相差甚遠,嚴重制約了視頻生成模型規(guī)模化的擴展。
為解決上述問題,華中科技大學(xué)、阿里巴巴集團、浙江大學(xué)和螞蟻集團聯(lián)合研究團隊于近期發(fā)布了 TF-T2V 視頻方案:論文地址:https://arxiv.org/abs/2312.15770
項目主頁:https://tf-t2v.github.io/
即將開源代碼地址:https://github.com/ali-vilab/i2
原文鏈接:無需文本標(biāo)注,TF-T2V把AI量產(chǎn)視頻的成本打下來了!華科阿里等聯(lián)合打造
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號