AIGC動態歡迎閱讀
原標題:Karpathy點贊,這份報告教你如何用 LLaMa 3創建高質量網絡數據集
關鍵字:數據,模型,報告,團隊,注釋
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
作者:蛋醬、小舟眾所周知,對于 Llama3、GPT-4 或 Mixtral 等高性能大語言模型來說,構建高質量的網絡規模數據集是非常重要的。然而,即使是最先進的開源 LLM 的預訓練數據集也不公開,人們對其創建過程知之甚少。
最近,AI 大牛 Andrej Karpathy 推薦了一項名為 FineWeb-Edu 的工作。這項工作將原始 15 萬億個 FineWeb token,經 Llama 3 70B 評判,過濾為 1.3 萬億個高質量(教科級)token。
事實證明,LLM 從教育內容中學習會更好更快。部分原因是普通的互聯網爬取文章的價值不是很高,并且會分散訓練的注意力,包含太多不相關的信息。
互聯網上的網頁是如此隨機和糟糕,這些奇怪的數據轉儲、廣告垃圾郵件、數兆字節的股票行情更新等等,里面混雜著「鉆石」(重要內容),那么挑戰就是把「鉆石」挑出來。
預訓練數據集對于微調可能非常有用,因為當你將模型微調到特定領域時,就會慢慢失去一般能力。模型開始慢慢忘記目標域之外的事物。并且這不僅限于知識,模型還會失去原始數據所需的一般「思維」技能。也就是說,除了廣泛的知識消失之外
原文鏈接:Karpathy點贊,這份報告教你如何用 LLaMa 3創建高質量網絡數據集
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...