突破Scaling Law：vivo AI Lab揭秘文本分類任務中的數據質量提升新策略

用近一半數據，有效提升訓練集的訓練效率

原標題：Scaling Law不總是適用！尤其在文本分類任務中，vivo AI Lab提出數據質量提升解決方法
文章來源：量子位
內容字數：4814字

vivo AI Lab 提出數據質量提升方法

最近，vivo AI Lab研究團隊針對文本分類任務，提出了一種名為數據質量提升（DQE）的方法，旨在提高大語言模型（LLM）的準確性和效率。研究表明，擴大訓練集的數據量并不總能帶來性能提升，尤其在類別界限不清晰的情況下，數據沖突和數據冗余問題可能會加劇。

1. 研究背景

文本分類在情感分析和用戶意圖識別等任務中具有重要意義，而傳統的縮放定律認為大語言模型的性能主要依賴于計算能力、模型參數和訓練數據量，這一理論在文本分類任務中并不完全適用。vivo AI Lab團隊通過實驗發現，使用DQE方法，僅用約一半的數據量，就能有效提高模型的訓練效率和準確率。

2. DQE方法設計

DQE方法的設計分為幾個步驟：首先，對訓練集進行數據清洗，處理缺失值、重復數據和標簽不一致的數據。接著，使用文本嵌入模型將文本轉換為語義向量，并通過貪婪采樣選擇最具代表性的數據，以提升數據的多樣性。最終，利用采樣數據微調大語言模型，并對未采樣數據進行預測錯誤分析。

3. 錯誤數據的分類

在分析預測錯誤的數據時，作者將其分為三類：Uncovered（未覆蓋）、Difficult（困難）和Noisy（噪聲）。Uncovered指的是在采樣數據中未覆蓋的數據，Difficult是指難以學習的樣本，而Noisy則是由于標簽不一致導致的噪聲數據。通過使用GPT-4o，作者進一步輔助判斷這些數據的特性。

4. 實驗結果與分析

在多個數據集（如MR、CR、IMDb等）上的實驗表明，DQE方法在準確率上顯著優于全量數據微調，且提高了訓練效率。此外，作者還通過t檢驗分析了模型之間的性能差異，結果顯示DQE選擇的數據在大多數測試集上均表現出顯著的性能提升。

5. 結論與展望

vivo AI Lab團隊的研究成果為文本分類任務的數據處理提供了新的思路，強調了數據質量的重要性。未來，進一步優化DQE方法和探索更多數據增強技術將有助于提升AI模型的性能，尤其在情感分析和用戶意圖識別等關鍵領域。

論文地址：[https://arxiv.org/abs/2412.06575](https://arxiv.org/abs/2412.06575)

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

突破Scaling Law：vivo AI Lab揭秘文本分類任務中的數據質量提升新策略

用近一半數據，有效提升訓練集的訓練效率

vivo AI Lab 提出數據質量提升方法

1. 研究背景

2. DQE方法設計

3. 錯誤數據的分類

4. 實驗結果與分析

5. 結論與展望

聯系作者

突破未來：AI醫療引領AGI時代的新篇章

吉利將負責極越汽車售后/26歲OpenAI 吹哨人死亡，曾曝ChatGPT黑幕 /《黑神話：悟空》創始人談TGA年度最佳

相關文章

暫無評論

ChatGPT

玩虛擬模特？