<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        突破Scaling Law:vivo AI Lab揭秘文本分類任務中的數據質量提升新策略

        AIGC動態9個月前發布 量子位
        526 0 0

        用近一半數據,有效提升訓練集的訓練效率

        突破Scaling Law:vivo AI Lab揭秘文本分類任務中的數據質量提升新策略

        原標題:Scaling Law不總是適用!尤其在文本分類任務中,vivo AI Lab提出數據質量提升解決方法
        文章來源:量子位
        內容字數:4814字

        vivo AI Lab 提出數據質量提升方法

        最近,vivo AI Lab研究團隊針對文本分類任務,提出了一種名為數據質量提升(DQE)的方法,旨在提高大語言模型(LLM)的準確性和效率。研究表明,擴大訓練集的數據量并不總能帶來性能提升,尤其在類別界限不清晰的情況下,數據沖突和數據冗余問題可能會加劇。

        1. 研究背景

        文本分類在情感分析和用戶意圖識別等任務中具有重要意義,而傳統的縮放定律認為大語言模型的性能主要依賴于計算能力、模型參數和訓練數據量,這一理論在文本分類任務中并不完全適用。vivo AI Lab團隊通過實驗發現,使用DQE方法,僅用約一半的數據量,就能有效提高模型的訓練效率和準確率。

        2. DQE方法設計

        DQE方法的設計分為幾個步驟:首先,對訓練集進行數據清洗,處理缺失值、重復數據和標簽不一致的數據。接著,使用文本嵌入模型將文本轉換為語義向量,并通過貪婪采樣選擇最具代表性的數據,以提升數據的多樣性。最終,利用采樣數據微調大語言模型,并對未采樣數據進行預測錯誤分析。

        3. 錯誤數據的分類

        在分析預測錯誤的數據時,作者將其分為三類:Uncovered(未覆蓋)、Difficult(困難)和Noisy(噪聲)。Uncovered指的是在采樣數據中未覆蓋的數據,Difficult是指難以學習的樣本,而Noisy則是由于標簽不一致導致的噪聲數據。通過使用GPT-4o,作者進一步輔助判斷這些數據的特性。

        4. 實驗結果與分析

        在多個數據集(如MR、CR、IMDb等)上的實驗表明,DQE方法在準確率上顯著優于全量數據微調,且提高了訓練效率。此外,作者還通過t檢驗分析了模型之間的性能差異,結果顯示DQE選擇的數據在大多數測試集上均表現出顯著的性能提升。

        5. 結論與展望

        vivo AI Lab團隊的研究成果為文本分類任務的數據處理提供了新的思路,強調了數據質量的重要性。未來,進一步優化DQE方法和探索更多數據增強技術將有助于提升AI模型的性能,尤其在情感分析和用戶意圖識別等關鍵領域。

        論文地址:[https://arxiv.org/abs/2412.06575](https://arxiv.org/abs/2412.06575)


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 黑人粗长大战亚洲女2021国产精品成人免费视频| 最近中文字幕mv免费高清视频8 | 亚洲精品无码久久久久去q| 亚洲欧美第一成人网站7777 | 91在线精品亚洲一区二区| 少妇性饥渴无码A区免费 | 亚洲成a人片在线观| 精品福利一区二区三区免费视频| 99亚洲精品高清一二区| 麻花传媒剧在线mv免费观看 | 人人狠狠综合久久亚洲| 久久亚洲国产精品| 在线涩涩免费观看国产精品| 亚洲AV无码乱码国产麻豆穿越| 国产一级高青免费| 久久久无码精品亚洲日韩蜜桃| 国产无遮挡裸体免费视频在线观看 | 99热亚洲色精品国产88| 成人网站免费观看| 亚洲αⅴ无码乱码在线观看性色| 国产免费久久精品| 精品国产污污免费网站入口| 亚洲成A人片777777| 日韩欧毛片免费视频| 国产精品无码亚洲一区二区三区| 免费h黄肉动漫在线观看| 91在线免费视频| 亚洲欧洲精品久久| 日韩精品视频免费网址| 一级美国片免费看| 久久夜色精品国产噜噜亚洲AV| 国产在线国偷精品产拍免费| 免费高清A级毛片在线播放| 亚洲狠狠婷婷综合久久久久| 5g影院5g天天爽永久免费影院| 亚洲午夜精品一区二区麻豆| 亚洲欧洲自拍拍偷精品 美利坚| 国产无遮挡裸体免费视频在线观看 | 亚洲av无码一区二区三区在线播放| 亚洲国产成人久久笫一页| 久久国产乱子伦精品免费不卡|