AIGC動態歡迎閱讀
原標題:FineWeb技術報告出爐!揭秘HuggingFace規模最大、質量最高預訓練數據集
關鍵字:報告,數據,模型,研究者,性能
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:Mindy
【新智元導讀】從大規模網絡爬取、精細過濾到去重技術,通過FineWeb的技術報告探索如何打造高質量數據集,為大型語言模型(LLM)預訓練提供更優質的性能。大型語言模型(LLMs)的性能在很大程度上取決于它的預訓練數據集的質量和大小。
然而,像Llama 3和Mixtral這樣最先進的LLMs的預訓練數據集并不公開;關于它們是如何創建的,我們知之甚少。
近日,Hugging Face上的一個團隊發布了FineWeb數據集,這是一個用于LLM預訓練的新型大規模(15萬億個tokens,44TB磁盤空間)數據集。
同時,他們還通過技術報告詳細介紹了該數據集的加工決策過程:FineWeb源自96個CommonCrawl快照,它是如何通過縝密的去重和過濾策略,比其他開放預訓練數據集產生了表現更好的LLM的。
創建數據集的準備工作開始創建數據集的第一步,需要考慮的問題是如何獲取到大規模的數據。
Common Crawl這個非營利組織自2007年以來一直在爬取網絡數據,并且每1到2個月發布一次新的爬取,包含200到400 TiB的文本內容。
于是,Common Craw
原文鏈接:FineWeb技術報告出爐!揭秘HuggingFace規模最大、質量最高預訓練數據集
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...