學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M
關(guān)鍵字:視頻,文本,標(biāo)記,視覺,數(shù)據(jù)
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | Zicy“巧婦難為無米之炊”,文生視頻作為一個(gè)在AI中較為年輕的研究方向,由許多至關(guān)重要的問題還尚未解決,其中之一就是缺乏大規(guī)模高質(zhì)量數(shù)據(jù)集,因此,最近學(xué)提出了一個(gè)名為OpenVid-1M的大規(guī)模高質(zhì)量數(shù)據(jù)集,它包含了100萬個(gè)帶有字幕的高質(zhì)量視頻片段。
除了數(shù)據(jù)集,他們還提出了一種新穎的多模態(tài)視頻擴(kuò)散Transformer(MVDiT),能夠同時(shí)提取視覺標(biāo)記和文本標(biāo)記中的結(jié)構(gòu)信息和語義信息。與以往主要關(guān)注視覺內(nèi)容的DiT架構(gòu)不同,MVDiT通過并行的視覺-文本架構(gòu)增強(qiáng)文本和生成視頻之間的一致性。其核心機(jī)制包括多模態(tài)自注意力模塊、多模態(tài)時(shí)間注意力模塊和多頭交叉注意力模塊,分別用于增強(qiáng)標(biāo)記間的交互、確保時(shí)間一致性和融合文本語義信息。
論文標(biāo)題:
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
論文鏈接:
https://arxiv.org/pdf/2407.02371
OpenVid-1M數(shù)據(jù)集OpenVid-1M是一個(gè)精確的高質(zhì)量數(shù)據(jù)集,包含超過10
原文鏈接:學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介: