AIGC動態歡迎閱讀
原標題:LLM數學性能暴漲168%,微軟14人團隊力作!合成數據2.0秘訣曝光,智能體生成教學
關鍵字:數據,模型,基準,研究人員,智能
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:桃子
【新智元導讀】合成數據2.0秘訣曝光了!來自微軟的研究人員們提出了智能體框架AgentInstruct,能夠自動創建大量、多樣化的合成數據。經過合成數據微調后的模型Orca-3,在多項基準上刷新了SOTA。全世界高質量數據幾乎枯竭。
AI科學家們為了解決這一難題,可謂是絞盡腦汁。
目前來看,合成數據或許就是大模型的未來,也成為業界公認的解決之法。
就連英偉達科學家Jim Fan曾發文表示,合成數據將提供下一萬億個高質量的訓練token。
但是,用合成數據,并非完全對LLM訓練有幫助。
前段時間,Nature封面研究顯示,合成數據迭代9次后,會讓大模型崩潰。而且,類似的研究比比皆是。
那么,我們該怎么辦呢?
最近,微軟團隊提出了可擴展的智能體框架——AgentInstruct,可自動創建大量多樣化、高質量的合成數據。
它最大的優勢在于,僅只用原始數據源,就能創建完整的提示和回應。
論文地址:https://arxiv.org/pdf/2407.03502
對此,研究人員使用AgentInstruct,創建了2500萬對「后訓練」數據集,涵蓋了多種使用技能,如文本編
原文鏈接:LLM數學性能暴漲168%,微軟14人團隊力作!合成數據2.0秘訣曝光,智能體生成教學
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...