<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        數據更多更好還是質量更高更好?這項研究能幫你做出選擇

        AIGC動態1年前 (2024)發布 機器之心
        470 0 0

        數據更多更好還是質量更高更好?這項研究能幫你做出選擇

        AIGC動態歡迎閱讀

        原標題:數據更多更好還是質量更高更好?這項研究能幫你做出選擇
        關鍵字:數據,效用,模型,樣本,質量
        文章來源:機器之心
        內容字數:8259字

        內容摘要:


        機器之心報道
        編輯:Panda W當計算預算低時,重復使用高質量數據更好;當不差錢時,使用大量數據更有利。對基礎模型進行 scaling 是指使用更多數據、計算和參數進行預訓練,簡單來說就是「規模擴展」。
        雖然直接擴展模型規模看起來簡單粗暴,但也確實為機器學習社區帶來了不少表現卓越的模型。之前不少研究都認可擴大神經模型規模的做法,所謂量變引起質變,這種觀點也被稱為神經擴展律(neural scaling laws)。
        近段時間,又有不少人認為「數據」才是那些當前最佳的閉源模型的關鍵,不管是 LLM、VLM 還是擴散模型。隨著數據質量的重要性得到認可,已經涌現出了不少旨在提升數據質量的研究:要么是從大型語料庫中過濾出高質量數據,要么是生成高質量的新數據。但是,過去的擴展律一般是將「數據」視為一個同質實體,并未將近期人們關注的「數據質量」作為一個考量維度。
        盡管網絡上的數據規模龐大,但高質量數據(基于多個評估指標)通常很有限。現在,開創性的研究來了 —— 數據過濾維度上的擴展律!它來自卡內基梅隆大學和 Bosch Center for AI,其中尤其關注了「大規模」與「高質量」之間的數量


        原文鏈接:數據更多更好還是質量更高更好?這項研究能幫你做出選擇

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 成人毛片100免费观看| 国产又大又粗又硬又长免费| 一级黄色毛片免费看| 亚洲专区中文字幕| 亚洲va无码va在线va天堂| 国产成人高清精品免费软件 | 日韩欧美一区二区三区免费观看 | 亚洲日本一区二区一本一道| 曰批全过程免费视频在线观看| 国产成人无码区免费网站| 阿v视频免费在线观看| 亚洲愉拍一区二区三区| 亚洲性一级理论片在线观看| 国产成A人亚洲精V品无码性色| 亚洲免费无码在线| 国产成人免费a在线资源| 成年女人喷潮毛片免费播放| 91高清免费国产自产| 日韩电影免费在线观看中文字幕| 一出一进一爽一粗一大视频免费的| 亚洲av色香蕉一区二区三区蜜桃| 久久精品亚洲AV久久久无码 | 中文字幕成人免费视频| 日本不卡免费新一区二区三区 | 国产精品亚洲不卡一区二区三区| 国产亚洲精品免费| 日韩精品视频免费观看| 成年女人18级毛片毛片免费观看| 中文字幕乱码免费视频| 亚洲免费视频网址| 嘿嘿嘿视频免费网站在线观看| 最近中文字幕高清免费中文字幕mv| 四虎国产精品永久免费网址| 免费h视频在线观看| 一级毛片免费毛片一级毛片免费| 国产精品免费AV片在线观看| 久9这里精品免费视频| 日韩插啊免费视频在线观看| **一级一级毛片免费观看| 在线精品一卡乱码免费| 人妻视频一区二区三区免费|