百萬級高質量視頻數據集發布，登頂抱抱臉數據集排行榜，中科大&上海AI Lab等出品

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：百萬級高質量視頻數據集發布，登頂抱抱臉數據集排行榜，中科大&上海AI Lab等出品
關鍵字：視頻,數據,研究者,模型,字幕
文章來源：量子位
內容字數：0字

內容摘要：

ShareGPT4V團隊投稿量子位 | 公眾號 QbitAI中科大、上海AI實驗室等組成的ShareGPT4V團隊，推出了新的視頻數據集，登頂HuggingFace排行榜！
數據集涵蓋了3000小時的高質量視頻數據，而且還配有高質量的文字描述。
利用這一數據集，團隊重新測試了北大的Open-Sora-Plan，發現視頻生成質量獲得了顯著提升。
作者認為，無論是視頻理解還是視頻生成任務，都離不開詳細高質量的視頻-字幕數據。
利用GPT-4v的視覺能力，團隊得到了4萬條（共291小時）帶有標注的視頻數據，生成的描述包含了豐富的世界知識。
在此基礎之上，團隊得到了能自動生成視頻描述的模型，從而將數據規模拓展到了480萬條、近3000小時。
目前該項目已開源，論文登上了6月7日的抱抱臉Daily Papers榜首，同時數據集本身也成功登頂VQA類數據集榜單。
為視頻生成高質量描述視頻多模態領域中，閉源商業模型一直處于斷層領先的地位，而研究者們認為，這種領先優勢，離不開詳細高質量的視頻-字幕數據。
因此，該研究團隊致力于為視頻獲取大量詳細而精確的字幕，提升大型視頻語言模型的視頻理解能力和文生視

原文鏈接：百萬級高質量視頻數據集發布，登頂抱抱臉數據集排行榜，中科大&上海AI Lab等出品