LeCun力薦！進化算法淘汰77%低質數據：RIP方法讓模型性能狂飆60%

原標題：LeCun力薦！進化算法淘汰77%低質數據：RIP方法讓模型性能狂飆60%
文章來源：新智元
內容字數：4289字

Meta新方法RIP：進化算法賦能，提升大模型訓練數據質量

近年來，大語言模型(LLM)的進步很大程度上依賴于高質量的訓練數據。然而，僅僅增加數據量并不能保證模型性能的提升，數據質量才是關鍵。Meta、UC伯克利、NYU等機構的研究者提出了一種名為拒絕指令偏好(RIP)的新方法，利用進化算法的思想，自動篩選并生成高質量的訓練數據集，從而顯著提升LLM的性能。

RIP的核心思想：優勝劣汰
RIP基于兩個核心假設：1. 低質量的提示詞(prompt)往往產生低質量的響應；2. 低質量的提示詞會產生差異更大的響應。RIP通過測量被拒絕響應的質量(m_1)、被拒絕響應的長度(m_2)以及被選擇和被拒絕響應之間的獎勵差距(m_3)來評估提示詞的質量。方差越小，獎勵差距越小，則提示詞質量越高。通過這種“優勝劣汰”機制，RIP可以有效地篩選出高質量的提示詞，構建更高質量的訓練數據集。
RIP的應用：篩選和生成高質量數據
RIP不僅可以用于篩選現有的訓練數據集，還可以用于生成高質量的合成數據集。Self-RIP方法利用少量高質量的種子提示詞，引導模型生成新的提示詞，并通過RIP進行篩選，從而迭代地構建高質量的合成數據集。這為缺乏高質量訓練數據的情況提供了一種有效的解決方案。
實驗結果：顯著性能提升
在多個基準測試(AlpacaEval2、Arena-Hard、Wildbench)中，RIP都取得了顯著的性能提升。例如，在WildChat數據集上，RIP僅使用不到一半的訓練樣本，就實現了多個指標的顯著提升。在Llama 3.1-8B-Instruct和Llama 3.3-70B-Instruct模型上，RIP也顯著提升了模型性能，AlpacaEval2 LC勝率、Arena Hard勝率和WildBench分數均有大幅提高。Self-RIP方法也展現了其有效性，在AlpacaEval2、Arena-Hard和WildBench上均取得了不錯的成績。
RIP的優勢與未來研究方向
與其他篩選方法相比，RIP在所有基準測試中都取得了更高的分數，展現了其優越性。未來研究可以探索如何優化評估模型，降低RIP的計算成本，以及利用RIP進行安全性過濾，構建更安全可靠的LLM。

總而言之，RIP方法為LLM的訓練提供了一種簡單而有效的新思路，通過進化算法的思想，自動篩選并生成高質量的數據集，顯著提升了LLM的性能。其在實際應用中的潛力巨大，值得進一步研究和探索。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

LeCun力薦！進化算法淘汰77%低質數據：RIP方法讓模型性能狂飆60%

Meta新方法RIP：進化算法賦能，提升大模型訓練數據質量

RIP的核心思想：優勝劣汰

RIP的應用：篩選和生成高質量數據

實驗結果：顯著性能提升

RIP的優勢與未來研究方向

聯系作者

Anthropic 首個“混合推理”模型詳細拆解

蘋果新系統「HomeOS」曝光/小米「雙 Ultra」發布會定檔/余承東：華為新形態手機 3 月見

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點