學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

南京大學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M

AIGC動態(tài)歡迎閱讀

原標題：學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M
關(guān)鍵字：視頻,文本,標記,視覺,數(shù)據(jù)
文章來源：夕小瑤科技說
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | Zicy“巧婦難為無米之炊”，文生視頻作為一個在AI中較為年輕的研究方向，由許多至關(guān)重要的問題還尚未解決，其中之一就是缺乏大規(guī)模高質(zhì)量數(shù)據(jù)集，因此，最近學(xué)提出了一個名為OpenVid-1M的大規(guī)模高質(zhì)量數(shù)據(jù)集，它包含了100萬個帶有字幕的高質(zhì)量視頻片段。
除了數(shù)據(jù)集，他們還提出了一種新穎的多模態(tài)視頻擴散Transformer（MVDiT），能夠同時提取視覺標記和文本標記中的結(jié)構(gòu)信息和語義信息。與以往主要關(guān)注視覺內(nèi)容的DiT架構(gòu)不同，MVDiT通過并行的視覺-文本架構(gòu)增強文本和生成視頻之間的一致性。其核心機制包括多模態(tài)自注意力模塊、多模態(tài)時間注意力模塊和多頭交叉注意力模塊，分別用于增強標記間的交互、確保時間一致性和融合文本語義信息。
論文標題：
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation
論文鏈接：
https://arxiv.org/pdf/2407.02371
OpenVid-1M數(shù)據(jù)集OpenVid-1M是一個精確的高質(zhì)量數(shù)據(jù)集，包含超過10

原文鏈接：學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：
作者簡介：

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

Karpathy：用表情包解釋一下，為什么AI數(shù)不清Strawberry幾個 r？

Apple 智能開啟測試，通話錄音來了/余承東再否認「遙遙領(lǐng)先」禁令/雷軍：小米汽車會在合適的時間全球化

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

學(xué)發(fā)布百萬規(guī)模文本生成視頻數(shù)據(jù)集OpenVid-1M

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

Karpathy：用表情包解釋一下，為什么AI數(shù)不清Strawberry幾個 r？

Apple 智能開啟測試，通話錄音來了/余承東再否認「遙遙領(lǐng)先」禁令/雷軍：小米汽車會在合適的時間全球化

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

Apple 智能開啟測試，通話錄音來了/余承東再否認「遙遙領(lǐng)先」禁令/雷軍：小米汽車會在合適的時間全球化

玩虛擬模特？