打破紀(jì)錄!谷歌全網(wǎng)扒1000億圖像文本對,ViT大佬坐鎮(zhèn):數(shù)據(jù)Scaling潛力依舊
千億規(guī)模或成多元多模態(tài)模型必備
原標(biāo)題:打破紀(jì)錄!谷歌全網(wǎng)扒1000億圖像文本對,ViT大佬坐鎮(zhèn):數(shù)據(jù)Scaling潛力依舊
文章來源:量子位
內(nèi)容字?jǐn)?shù):3581字
谷歌發(fā)布史上最大規(guī)模視覺語言數(shù)據(jù)集WebLI-100B
本文總結(jié)了谷歌DeepMind團(tuán)隊發(fā)布的最新研究成果:史上最大規(guī)模視覺語言數(shù)據(jù)集WebLI-100B,包含1000億圖像-文本對,是此前紀(jì)錄的十倍。該研究由Xiao Wang和Ibrahim Alabdulmohsin一作,ViT核心作者翟曉華也參與其中,并于2024年12月加入OpenAI蘇黎世實驗室。
數(shù)據(jù)集規(guī)模與模型性能
1. **數(shù)據(jù)規(guī)模的突破:** WebLI-100B的數(shù)據(jù)量巨大,進(jìn)一步驗證了數(shù)據(jù)Scaling Law的潛力,表明數(shù)據(jù)規(guī)模提升仍有很大空間。 該數(shù)據(jù)集涵蓋多元文化和多語言,能更好地覆蓋長尾場景,提升模型性能,尤其是在非英語世界。
2. **對模型性能的影響:** 研究人員通過對比10億、100億和1000億規(guī)模數(shù)據(jù)集訓(xùn)練的模型,發(fā)現(xiàn)數(shù)據(jù)規(guī)模越大,模型對圖像細(xì)節(jié)的理解越精準(zhǔn)。1000億規(guī)模數(shù)據(jù)集在多語言能力和公平性任務(wù)上表現(xiàn)顯著優(yōu)于較小規(guī)模數(shù)據(jù)集,但在以西方文化為主的傳統(tǒng)基準(zhǔn)測試上提升有限。
3. **數(shù)據(jù)過濾的影響:** 研究發(fā)現(xiàn),使用CLIP等模型進(jìn)行數(shù)據(jù)過濾,雖然能提高模型在傳統(tǒng)基準(zhǔn)測試上的性能,但會無意中降低模型的文化多樣性。 這表明在構(gòu)建多元多模態(tài)大模型時,需要謹(jǐn)慎處理數(shù)據(jù)過濾步驟。
研究方法與實驗結(jié)果
1. **數(shù)據(jù)收集與處理:** 研究人員從網(wǎng)絡(luò)上收集了1000億圖像-文本對,并進(jìn)行了初步的清洗和篩選,剔除有害內(nèi)容和敏感信息。隨后利用CLIP模型進(jìn)行質(zhì)量評估,并訓(xùn)練分類器模型進(jìn)一步篩選,提高圖像文本對齊的準(zhǔn)確性。為了提升低資源語言的代表性,研究人員對低資源語言進(jìn)行了上采樣。
2. **模型訓(xùn)練與評估:** 研究人員使用SigLIP模型在不同規(guī)模的數(shù)據(jù)集上進(jìn)行對比視覺語言預(yù)訓(xùn)練,訓(xùn)練了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),并采用大規(guī)模批量大小和學(xué)習(xí)率調(diào)度。評估維度包括傳統(tǒng)基準(zhǔn)測試(ImageNet、COCO Captions等)、文化多樣性、多語言能力以及公平性。
3. **主要發(fā)現(xiàn):** 1000億規(guī)模數(shù)據(jù)集顯著提升了模型的多語言能力和公平性,但對以西方文化為主的傳統(tǒng)基準(zhǔn)測試的提升有限。數(shù)據(jù)過濾雖然能提升傳統(tǒng)任務(wù)性能,但會降低文化多樣性。調(diào)整低資源語言的混合比例能顯著提升其在低資源語言基準(zhǔn)測試上的性能。
研究團(tuán)隊與未來展望
該研究團(tuán)隊由Xiao Wang和Ibrahim Alabdulmohsin領(lǐng)銜,ViT核心作者翟曉華也參與其中。翟曉華已加入OpenAI。這項研究表明,千億級數(shù)據(jù)規(guī)模將成為構(gòu)建多元多模態(tài)大模型的重要參考,同時也強(qiáng)調(diào)了在數(shù)據(jù)處理過程中保持文化多樣性的重要性。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破