學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M

AIGC動態(tài)歡迎閱讀
原標題:學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M
關(guān)鍵字:視頻,文本,標記,視覺,數(shù)據(jù)
文章來源:夕小瑤科技說
內(nèi)容字數(shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | Zicy“巧婦難為無米之炊”,文生視頻作為一個在AI中較為年輕的研究方向,由許多至關(guān)重要的問題還尚未解決,其中之一就是缺乏大規(guī)模高質(zhì)量數(shù)據(jù)集,因此,最近學(xué)提出了一個名為OpenVid-1M的大規(guī)模高質(zhì)量數(shù)據(jù)集,它包含了100萬個帶有字幕的高質(zhì)量視頻片段。
除了數(shù)據(jù)集,他們還提出了一種新穎的多模態(tài)視頻擴散Transformer(MVDiT),能夠同時提取視覺標記和文本標記中的結(jié)構(gòu)信息和語義信息。與以往主要關(guān)注視覺內(nèi)容的DiT架構(gòu)不同,MVDiT通過并行的視覺-文本架構(gòu)增強文本和生成視頻之間的一致性。其核心機制包括多模態(tài)自注意力模塊、多模態(tài)時間注意力模塊和多頭交叉注意力模塊,分別用于增強標記間的交互、確保時間一致性和融合文本語義信息。
論文標題:
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
論文鏈接:
https://arxiv.org/pdf/2407.02371
OpenVid-1M數(shù)據(jù)集OpenVid-1M是一個精確的高質(zhì)量數(shù)據(jù)集,包含超過10
原文鏈接:學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號