<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        突破Scaling Law:vivo AI Lab揭秘文本分類任務中的數據質量提升新策略

        AIGC動態8個月前發布 量子位
        522 0 0

        用近一半數據,有效提升訓練集的訓練效率

        突破Scaling Law:vivo AI Lab揭秘文本分類任務中的數據質量提升新策略

        原標題:Scaling Law不總是適用!尤其在文本分類任務中,vivo AI Lab提出數據質量提升解決方法
        文章來源:量子位
        內容字數:4814字

        vivo AI Lab 提出數據質量提升方法

        最近,vivo AI Lab研究團隊針對文本分類任務,提出了一種名為數據質量提升(DQE)的方法,旨在提高大語言模型(LLM)的準確性和效率。研究表明,擴大訓練集的數據量并不總能帶來性能提升,尤其在類別界限不清晰的情況下,數據沖突和數據冗余問題可能會加劇。

        1. 研究背景

        文本分類在情感分析和用戶意圖識別等任務中具有重要意義,而傳統的縮放定律認為大語言模型的性能主要依賴于計算能力、模型參數和訓練數據量,這一理論在文本分類任務中并不完全適用。vivo AI Lab團隊通過實驗發現,使用DQE方法,僅用約一半的數據量,就能有效提高模型的訓練效率和準確率。

        2. DQE方法設計

        DQE方法的設計分為幾個步驟:首先,對訓練集進行數據清洗,處理缺失值、重復數據和標簽不一致的數據。接著,使用文本嵌入模型將文本轉換為語義向量,并通過貪婪采樣選擇最具代表性的數據,以提升數據的多樣性。最終,利用采樣數據微調大語言模型,并對未采樣數據進行預測錯誤分析。

        3. 錯誤數據的分類

        在分析預測錯誤的數據時,作者將其分為三類:Uncovered(未覆蓋)、Difficult(困難)和Noisy(噪聲)。Uncovered指的是在采樣數據中未覆蓋的數據,Difficult是指難以學習的樣本,而Noisy則是由于標簽不一致導致的噪聲數據。通過使用GPT-4o,作者進一步輔助判斷這些數據的特性。

        4. 實驗結果與分析

        在多個數據集(如MR、CR、IMDb等)上的實驗表明,DQE方法在準確率上顯著優于全量數據微調,且提高了訓練效率。此外,作者還通過t檢驗分析了模型之間的性能差異,結果顯示DQE選擇的數據在大多數測試集上均表現出顯著的性能提升。

        5. 結論與展望

        vivo AI Lab團隊的研究成果為文本分類任務的數據處理提供了新的思路,強調了數據質量的重要性。未來,進一步優化DQE方法和探索更多數據增強技術將有助于提升AI模型的性能,尤其在情感分析和用戶意圖識別等關鍵領域。

        論文地址:[https://arxiv.org/abs/2412.06575](https://arxiv.org/abs/2412.06575)


        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 最近中文字幕国语免费完整| 国产色婷婷精品免费视频| 最近更新免费中文字幕大全| 久久成人免费电影| 拍拍拍又黄又爽无挡视频免费| 亚洲国产精品碰碰| 337p日本欧洲亚洲大胆色噜噜| 免费中文字幕视频| www视频免费看| MM131亚洲国产美女久久| 亚洲妓女综合网99| a级男女仿爱免费视频| 亚洲乱亚洲乱妇无码麻豆| 亚洲精品无码不卡在线播放| 国产中文字幕在线免费观看| 久久久久久久综合日本亚洲| 亚洲欧洲av综合色无码| 精品免费国产一区二区| 亚洲成人在线免费观看| 一个人看www在线高清免费看| 国产亚洲精品资源在线26u| 青娱乐在线免费观看视频| 中文字幕av无码无卡免费| 亚洲精品宾馆在线精品酒店 | 亚洲午夜福利AV一区二区无码| 国产特黄特色的大片观看免费视频| 成年女人喷潮毛片免费播放| 在线播放亚洲精品| 国产成人午夜精品免费视频| 亚洲AV一区二区三区四区| 最近中文字幕mv免费高清电影| 国产成人久久精品亚洲小说| 亚洲午夜久久久影院| 亚洲免费二区三区| 国产成人+综合亚洲+天堂| 亚洲精品成人无码中文毛片不卡| 97碰公开在线观看免费视频| 亚洲另类激情综合偷自拍| 无码人妻久久一区二区三区免费| 亚洲国产精品成人精品无码区 | 岛国av无码免费无禁网站|