AIGC動態歡迎閱讀
原標題:學發布百萬規模文本生成視頻數據集OpenVid-1M
關鍵字:視頻,文本,標記,視覺,數據
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | Zicy“巧婦難為無米之炊”,文生視頻作為一個在AI中較為年輕的研究方向,由許多至關重要的問題還尚未解決,其中之一就是缺乏大規模高質量數據集,因此,最近學提出了一個名為OpenVid-1M的大規模高質量數據集,它包含了100萬個帶有字幕的高質量視頻片段。
除了數據集,他們還提出了一種新穎的多模態視頻擴散Transformer(MVDiT),能夠同時提取視覺標記和文本標記中的結構信息和語義信息。與以往主要關注視覺內容的DiT架構不同,MVDiT通過并行的視覺-文本架構增強文本和生成視頻之間的一致性。其核心機制包括多模態自注意力模塊、多模態時間注意力模塊和多頭交叉注意力模塊,分別用于增強標記間的交互、確保時間一致性和融合文本語義信息。
論文標題:
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
論文鏈接:
https://arxiv.org/pdf/2407.02371
OpenVid-1M數據集OpenVid-1M是一個精確的高質量數據集,包含超過10
原文鏈接:學發布百萬規模文本生成視頻數據集OpenVid-1M
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...