Meta浙大校友讓評估模型「自學成才」，數據全合成無需人工標注，訓練Llama 3 70B超過405B

AIGC動態歡迎閱讀

原標題：Meta浙大校友讓評估模型「自學成才」，數據全合成無需人工標注，訓練Llama 3 70B超過405B
關鍵字：模型,數據,指令,人類,分數
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：喬楊
【新智元導讀】隨著LLM不斷迭代，偏好和評估數據中大量的人工標注逐漸成為模型擴展的顯著障礙之一。Meta FAIR的團隊最近提出了一種使用迭代式方法「自學成才」的評估模型訓練方法，讓70B參數的Llama-3-Instruct模型分數超過了Llama 3.1-405B。LLM在開發周期的每個階段都依賴強大的評估模型，比如訓練階段用于對齊人類偏好或迭代自我改進的獎勵模型，以及推理階段作為人類評估的替代方案。
構建評估模型往往依賴大量的高質量人類偏好數據，不僅耗時長、成本高，而且在模型擴展到新任務或評估標準時造成了阻礙。
此外，隨著新模型不斷迭代改進時，現有的標注數據往往會過時，因為其中的評估是基于舊有的、性能較差的模型相應。這意味著需要不斷重復上述的數據標注和收集流程。
最近，Meta FAIR發表的一篇研究就嘗試使用合成數據的方法來解決這個問題。他們提出了一種迭代的自我訓練方法，在訓練循環中完全不使用人類標注的偏好數據，而是純粹依賴合成數據。
論文地址：https://arxiv.org/abs/2408.02666
實驗中，這種方法將Llama-3-70B-I

原文鏈接：Meta浙大校友讓評估模型「自學成才」，數據全合成無需人工標注，訓練Llama 3 70B超過405B