AIGC動態歡迎閱讀
原標題:百萬級高質量視頻數據集發布,登頂抱抱臉數據集排行榜,中科大&上海AI Lab等出品
關鍵字:視頻,數據,研究者,模型,字幕
文章來源:量子位
內容字數:0字
內容摘要:
ShareGPT4V團隊 投稿量子位 | 公眾號 QbitAI中科大、上海AI實驗室等組成的ShareGPT4V團隊,推出了新的視頻數據集,登頂HuggingFace排行榜!
數據集涵蓋了3000小時的高質量視頻數據,而且還配有高質量的文字描述。
利用這一數據集,團隊重新測試了北大的Open-Sora-Plan,發現視頻生成質量獲得了顯著提升。
作者認為,無論是視頻理解還是視頻生成任務,都離不開詳細高質量的視頻-字幕數據。
利用GPT-4v的視覺能力,團隊得到了4萬條(共291小時)帶有標注的視頻數據,生成的描述包含了豐富的世界知識。
在此基礎之上,團隊得到了能自動生成視頻描述的模型,從而將數據規模拓展到了480萬條、近3000小時。
目前該項目已開源,論文登上了6月7日的抱抱臉Daily Papers榜首,同時數據集本身也成功登頂VQA類數據集榜單。
為視頻生成高質量描述視頻多模態領域中,閉源商業模型一直處于斷層領先的地位,而研究者們認為,這種領先優勢,離不開詳細高質量的視頻-字幕數據。
因此,該研究團隊致力于為視頻獲取大量詳細而精確的字幕,提升大型視頻語言模型的視頻理解能力和文生視
原文鏈接:百萬級高質量視頻數據集發布,登頂抱抱臉數據集排行榜,中科大&上海AI Lab等出品
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...