Karpathy點(diǎn)贊，這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：Karpathy點(diǎn)贊，這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集
關(guān)鍵字：數(shù)據(jù),模型,報(bào)告,團(tuán)隊(duì),注釋
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
作者：蛋醬、小舟眾所周知，對(duì)于 Llama3、GPT-4 或 Mixtral 等高性能大語言模型來說，構(gòu)建高質(zhì)量的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集是非常重要的。然而，即使是最先進(jìn)的開源 LLM 的預(yù)訓(xùn)練數(shù)據(jù)集也不公開，人們對(duì)其創(chuàng)建過程知之甚少。
最近，AI 大牛 Andrej Karpathy 推薦了一項(xiàng)名為 FineWeb-Edu 的工作。這項(xiàng)工作將原始 15 萬億個(gè) FineWeb token，經(jīng) Llama 3 70B 評(píng)判，過濾為 1.3 萬億個(gè)高質(zhì)量（教科級(jí)）token。
事實(shí)證明，LLM 從教育內(nèi)容中學(xué)習(xí)會(huì)更好更快。部分原因是普通的互聯(lián)網(wǎng)爬取文章的價(jià)值不是很高，并且會(huì)分散訓(xùn)練的注意力，包含太多不相關(guān)的信息。
互聯(lián)網(wǎng)上的網(wǎng)頁是如此隨機(jī)和糟糕，這些奇怪的數(shù)據(jù)轉(zhuǎn)儲(chǔ)、廣告垃圾郵件、數(shù)兆字節(jié)的股票行情更新等等，里面混雜著「鉆石」（重要內(nèi)容），那么挑戰(zhàn)就是把「鉆石」挑出來。
預(yù)訓(xùn)練數(shù)據(jù)集對(duì)于微調(diào)可能非常有用，因?yàn)楫?dāng)你將模型微調(diào)到特定領(lǐng)域時(shí)，就會(huì)慢慢失去一般能力。模型開始慢慢忘記目標(biāo)域之外的事物。并且這不僅限于知識(shí)，模型還會(huì)失去原始數(shù)據(jù)所需的一般「思維」技能。也就是說，除了廣泛的知識(shí)消失之外

原文鏈接：Karpathy點(diǎn)贊，這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：almosthuman2014
作者簡(jiǎn)介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Karpathy點(diǎn)贊，這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

中國圖象圖形學(xué)學(xué)會(huì) 2024 年度獎(jiǎng)勵(lì)和激勵(lì)計(jì)劃推薦工作啟動(dòng)

北電數(shù)智：探索算力服務(wù)“最優(yōu)解”｜甲子光年

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Karpathy點(diǎn)贊，這份報(bào)告教你如何用 LLaMa 3創(chuàng)建高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)集

AIGC動(dòng)態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

中國圖象圖形學(xué)學(xué)會(huì) 2024 年度獎(jiǎng)勵(lì)和激勵(lì)計(jì)劃推薦工作啟動(dòng)

北電數(shù)智：探索算力服務(wù)“最優(yōu)解”｜甲子光年

相關(guān)文章

暫無評(píng)論

ChatGPT

玩虛擬模特？

玩虛擬模特？