千億規模或成多元多模態模型必備
原標題:打破紀錄!谷歌全網扒1000億圖像文本對,ViT大佬坐鎮:數據Scaling潛力依舊
文章來源:量子位
內容字數:3581字
谷歌發布史上最大規模視覺語言數據集WebLI-100B
本文總結了谷歌DeepMind團隊發布的最新研究成果:史上最大規模視覺語言數據集WebLI-100B,包含1000億圖像-文本對,是此前紀錄的十倍。該研究由Xiao Wang和Ibrahim Alabdulmohsin一作,ViT核心作者翟曉華也參與其中,并于2024年12月加入OpenAI蘇黎世實驗室。
數據集規模與模型性能
1. **數據規模的突破:** WebLI-100B的數據量巨大,進一步驗證了數據Scaling Law的潛力,表明數據規模提升仍有很大空間。 該數據集涵蓋多元文化和多語言,能更好地覆蓋長尾場景,提升模型性能,尤其是在非英語世界。
2. **對模型性能的影響:** 研究人員通過對比10億、100億和1000億規模數據集訓練的模型,發現數據規模越大,模型對圖像細節的理解越精準。1000億規模數據集在多語言能力和公平性任務上表現顯著優于較小規模數據集,但在以西方文化為主的傳統基準測試上提升有限。
3. **數據過濾的影響:** 研究發現,使用CLIP等模型進行數據過濾,雖然能提高模型在傳統基準測試上的性能,但會無意中降低模型的文化多樣性。 這表明在構建多元多模態大模型時,需要謹慎處理數據過濾步驟。
研究方法與實驗結果
1. **數據收集與處理:** 研究人員從網絡上收集了1000億圖像-文本對,并進行了初步的清洗和篩選,剔除有害內容和敏感信息。隨后利用CLIP模型進行質量評估,并訓練分類器模型進一步篩選,提高圖像文本對齊的準確性。為了提升低資源語言的代表性,研究人員對低資源語言進行了上采樣。
2. **模型訓練與評估:** 研究人員使用SigLIP模型在不同規模的數據集上進行對比視覺語言預訓練,訓練了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),并采用大規模批量大小和學習率調度。評估維度包括傳統基準測試(ImageNet、COCO Captions等)、文化多樣性、多語言能力以及公平性。
3. **主要發現:** 1000億規模數據集顯著提升了模型的多語言能力和公平性,但對以西方文化為主的傳統基準測試的提升有限。數據過濾雖然能提升傳統任務性能,但會降低文化多樣性。調整低資源語言的混合比例能顯著提升其在低資源語言基準測試上的性能。
研究團隊與未來展望
該研究團隊由Xiao Wang和Ibrahim Alabdulmohsin領銜,ViT核心作者翟曉華也參與其中。翟曉華已加入OpenAI。這項研究表明,千億級數據規模將成為構建多元多模態大模型的重要參考,同時也強調了在數據處理過程中保持文化多樣性的重要性。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破