北京大學(xué)發(fā)布LLMs（預(yù)訓(xùn)練+微調(diào)）數(shù)據(jù)管理全流程綜述

AIGC動態(tài)2年前 (2023)發(fā)布夕小瑤科技說

534 0 0

AIGC動態(tài)歡迎閱讀

原標(biāo)題：北京大學(xué)發(fā)布LLMs（預(yù)訓(xùn)練+微調(diào)）數(shù)據(jù)管理全流程綜述

關(guān)鍵字：數(shù)據(jù),指令,模型,任務(wù),質(zhì)量

文章來源：夕小瑤科技說

內(nèi)容字?jǐn)?shù)：8631字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年、python數(shù)據(jù)一直以來都是大語言模型（LLMs）構(gòu)建的基石。LLMs強(qiáng)大的能力在很大程度上依賴于在大量數(shù)據(jù)上的自我監(jiān)督預(yù)訓(xùn)練。并且，通過進(jìn)一步在指令數(shù)據(jù)集上進(jìn)行有監(jiān)督微調(diào)，可以進(jìn)一步提高LLMs遵循指令和完成各種各樣下游任務(wù)的能力。然而，現(xiàn)有的許多知名LLMs并沒有詳細(xì)公布或深度總結(jié)其在訓(xùn)練全階段所使用的數(shù)據(jù)情況，以及如何進(jìn)行數(shù)據(jù)去重、過濾等數(shù)據(jù)管理過程。
近日，來自北京大學(xué)的學(xué)者發(fā)布了LLMs訓(xùn)練數(shù)據(jù)管理全流程綜述，分別從預(yù)訓(xùn)練與有監(jiān)督微調(diào)兩個階段詳細(xì)總結(jié)了包括數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量、領(lǐng)域組成以及數(shù)據(jù)管理系統(tǒng)等方面的研究。
論文標(biāo)題:Data Management For Large Language Models: A Survey
論文鏈接:https://arxiv.org/pdf/2312.01700.pdf
預(yù)訓(xùn)練階段1. 數(shù)據(jù)規(guī)模模型規(guī)模與訓(xùn)練數(shù)據(jù)集規(guī)模之間符合縮放定律，即當(dāng)模型大小和訓(xùn)練計算預(yù)算沒有瓶頸限制時，模型性能與訓(xùn)練數(shù)據(jù)集規(guī)模呈冪律關(guān)系。只要同時擴(kuò)大模型大小和訓(xùn)練數(shù)據(jù)集規(guī)模，模型性能可以提高，但如果其中一個固定而另一個增加，就會

原文鏈接：點此閱讀原文：北京大學(xué)發(fā)布LLMs（預(yù)訓(xùn)練+微調(diào)）數(shù)據(jù)管理全流程綜述