AIGC動態歡迎閱讀
原標題:北京大學發布LLMs(預訓練+微調)數據管理全流程綜述
文章來源:夕小瑤科技說
內容字數:8631字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年、python數據一直以來都是大語言模型(LLMs)構建的基石。LLMs強大的能力在很大程度上依賴于在大量數據上的自我監督預訓練。并且,通過進一步在指令數據集上進行有監督微調,可以進一步提高LLMs遵循指令和完成各種各樣下游任務的能力。然而,現有的許多知名LLMs并沒有詳細公布或深度總結其在訓練全階段所使用的數據情況,以及如何進行數據去重、過濾等數據管理過程。
近日,來自北京大學的學者發布了LLMs訓練數據管理全流程綜述,分別從預訓練與有監督微調兩個階段詳細總結了包括數據規模、數據質量、領域組成以及數據管理系統等方面的研究。
論文標題:Data Management For Large Language Models: A Survey
論文鏈接:https://arxiv.org/pdf/2312.01700.pdf
預訓練階段1. 數據規模模型規模與訓練數據集規模之間符合縮放定律,即當模型大小和訓練計算預算沒有瓶頸限制時,模型性能與訓練數據集規模呈冪律關系。只要同時擴大模型大小和訓練數據集規模,模型性能可以提高,但如果其中一個固定而另一個增加,就會
原文鏈接:點此閱讀原文:北京大學發布LLMs(預訓練+微調)數據管理全流程綜述
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...