<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        打破紀錄!谷歌全網扒1000億圖像文本對,ViT大佬坐鎮:數據Scaling潛力依舊

        AIGC動態3個月前發布 量子位
        309 0 0

        千億規模或成多元多模態模型必備

        打破紀錄!谷歌全網扒1000億圖像文本對,ViT大佬坐鎮:數據Scaling潛力依舊

        原標題:打破紀錄!谷歌全網扒1000億圖像文本對,ViT大佬坐鎮:數據Scaling潛力依舊
        文章來源:量子位
        內容字數:3581字

        谷歌發布史上最大規模視覺語言數據集WebLI-100B

        本文總結了谷歌DeepMind團隊發布的最新研究成果:史上最大規模視覺語言數據集WebLI-100B,包含1000億圖像-文本對,是此前紀錄的十倍。該研究由Xiao Wang和Ibrahim Alabdulmohsin一作,ViT核心作者翟曉華也參與其中,并于2024年12月加入OpenAI蘇黎世實驗室。

        數據集規模與模型性能

        1. **數據規模的突破:** WebLI-100B的數據量巨大,進一步驗證了數據Scaling Law的潛力,表明數據規模提升仍有很大空間。 該數據集涵蓋多元文化和多語言,能更好地覆蓋長尾場景,提升模型性能,尤其是在非英語世界。

        2. **對模型性能的影響:** 研究人員通過對比10億、100億和1000億規模數據集訓練的模型,發現數據規模越大,模型對圖像細節的理解越精準。1000億規模數據集在多語言能力和公平性任務上表現顯著優于較小規模數據集,但在以西方文化為主的傳統基準測試上提升有限。

        3. **數據過濾的影響:** 研究發現,使用CLIP等模型進行數據過濾,雖然能提高模型在傳統基準測試上的性能,但會無意中降低模型的文化多樣性。 這表明在構建多元多模態大模型時,需要謹慎處理數據過濾步驟。

        研究方法與實驗結果

        1. **數據收集與處理:** 研究人員從網絡上收集了1000億圖像-文本對,并進行了初步的清洗和篩選,剔除有害內容和敏感信息。隨后利用CLIP模型進行質量評估,并訓練分類器模型進一步篩選,提高圖像文本對齊的準確性。為了提升低資源語言的代表性,研究人員對低資源語言進行了上采樣。

        2. **模型訓練與評估:** 研究人員使用SigLIP模型在不同規模的數據集上進行對比視覺語言預訓練,訓練了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),并采用大規模批量大小和學習率調度。評估維度包括傳統基準測試(ImageNet、COCO Captions等)、文化多樣性、多語言能力以及公平性。

        3. **主要發現:** 1000億規模數據集顯著提升了模型的多語言能力和公平性,但對以西方文化為主的傳統基準測試的提升有限。數據過濾雖然能提升傳統任務性能,但會降低文化多樣性。調整低資源語言的混合比例能顯著提升其在低資源語言基準測試上的性能。

        研究團隊與未來展望

        該研究團隊由Xiao Wang和Ibrahim Alabdulmohsin領銜,ViT核心作者翟曉華也參與其中。翟曉華已加入OpenAI。這項研究表明,千億級數據規模將成為構建多元多模態大模型的重要參考,同時也強調了在數據處理過程中保持文化多樣性的重要性。


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 男人免费视频一区二区在线观看| 亚洲中文字幕无码久久2020| 亚洲色欲一区二区三区在线观看 | 亚洲国产成人精品青青草原| 亚洲狠狠ady亚洲精品大秀| 91亚洲精品自在在线观看| 2022久久国产精品免费热麻豆| 黄瓜视频影院在线观看免费| 亚洲国产成人精品无码久久久久久综合| 青青草原亚洲视频| ww亚洲ww在线观看国产| 国产精品午夜免费观看网站| 777成影片免费观看| 亚洲av无码国产精品色在线看不卡 | 国产精品hd免费观看| 中文字幕亚洲不卡在线亚瑟| 亚洲手机中文字幕| 大地资源在线资源免费观看| 免费人成网站在线观看10分钟| 亚洲欧洲在线播放| 麻豆成人精品国产免费| 久久国产亚洲电影天堂| 亚洲av无码一区二区三区在线播放| 99久久精品毛片免费播放| 免费黄网在线观看| 一级做a爰性色毛片免费| 日本高清色本免费现在观看| 亚洲精品美女视频| 好吊妞视频免费视频| 亚洲国产美女福利直播秀一区二区| 青娱乐免费视频在线观看| 国产成人亚洲精品播放器下载| 亚洲免费视频观看| 亚洲人精品午夜射精日韩| 99久久综合精品免费| 亚洲乱码一区二区三区在线观看| 免费无遮挡无遮羞在线看| 国产成人精品日本亚洲网站| 两个人看的www视频免费完整版| 免费人成在线观看网站视频| 亚洲精品无码少妇30P|