AIGC動態歡迎閱讀
內容摘要:
機器之心報道
編輯:Panda W開源多模態大模型或將開始騰飛。值此 Llama 3.1 各大頭條之際,又突然冒出了另一個也非常重要的發布 —— 一個規模空前的開源多模態數據集。
對大模型來說,數據集的重要性無需多言,甚至可以說沒有大型數據集就不可能有大模型。現在正是多模態大模型(LMM)發展正盛的時候,規模足夠大的優質且開源的多模態數據集已經成為該領域的一大「剛需」。不過,相比于開源的文本數據集,現有的開源多模態數據集都比較小、多樣性也不足,并且來源基本都是 HTML 文檔 —— 這就限制了數據的廣度和多樣性。這無疑限制了開源 LMM 的發展,讓開源 LMM 與閉源 LMM 之間的差異變得非常大。
近日,華盛頓大學、Salesforce Research 和斯坦福大學等機構的聯合團隊填補了這一空白,構建了一個萬億 token 級的交織多模態的開源數據集 MINT-1T(Multimodal INTerleaved)。毫無疑問,這是目前最大的開源多模態數據集。數據集地址:https://github.com/mlfoundations/MINT-1T
論文地址:https://ar
原文鏈接:萬億token!史上最大多模態數據集誕生
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...