Crawl4LLM

Crawl4LLM – 清華和卡內基梅隆大合開源的智能系統

Crawl4LLM 是由清華大學與卡內基梅隆大合開發的一個開源智能系統，旨在顯著提升大語言模型（LLM）的預訓練效率。該系統通過智能評估網頁的預訓練價值，優先抓取高價值內容，相比傳統技術，其效率提升了近五倍。

Crawl4LLM是什么

Crawl4LLM 是清華大學與卡內基梅隆大學共同推出的一款智能工具，專門為提高大語言模型（LLM）的預訓練效率而設計。該系統通過智能化評估網頁的價值，優先抓取那些對 LLM 預訓練貢獻最大的網頁，極大地提升了數據抓取的效率。Crawl4LLM 支持三種爬取模式：智能模式、隨機爬取模式和基于鏈接數量的爬取模式，并具備狀態定期保存和數據可視化功能，能夠與 DCLM 框架無縫對接，直接用于模型訓練。

Crawl4LLM

Crawl4LLM的主要功能

智能化網頁選擇：系統通過評估網頁對 LLM 預訓練的貢獻，優先抓取高價值網頁，從而提高數據質量并減少無效數據的抓取。
多種爬取模式：
- 智能模式：根據網頁價值評估優先抓取高價值網頁。
- 隨機模式：隨機抓取網頁，適合非精準需求的場景。
- 基于鏈接數量模式：依據網頁鏈接數量進行抓取，適合大規模數據采集。
狀態定期保存：支持定期保存狀態，能夠從中斷點繼續抓取，避免數據丟失。
數據瀏覽與可視化：提供用戶友好的數據瀏覽工具和可視化界面，讓用戶實時監控爬取進度和效果。
與 DCLM 框架無縫對接：爬取的數據可以直接用于 LLM 的預訓練，提高數據流的效率和準確性。

Crawl4LLM的技術原理

預訓練影響力評分：Crawl4LLM 利用預訓練影響力評分器（如 DCLM fastText）對網頁進行評分，依據網頁內容質量和相關性等指標，評估其對 LLM 預訓練的貢獻。在每次爬取迭代中，新發現的網頁會被評分器打分，依據分數來決定爬取的優先級。
優先級隊列：通過優先級隊列對網頁進行排序，優先爬取評分最高的網頁，取代傳統基于圖連通性（如 PageRank）的調度機制。Crawl4LLM 能夠迅速發現并爬取對預訓練最有價值的網頁，減少低價值網頁的抓取。
多維度數據評估：Crawl4LLM 結合網頁鏈接數量、內容長度等多維度指標對網頁進行綜合評分，以分析高評分網頁的鏈接關系，發現更多潛在的高價值網頁。
模擬與優化：在 ClueWeb22 數據集上進行的大規模模擬實驗驗證了其在不同場景下的有效性，并基于實驗結果優化算法參數，以確保在有限的爬取量下實現最佳的預訓練效果。
減少對網站的負擔：通過減少不必要的網頁爬取，降低對網站流量的負擔，提升行為的合規性，Crawl4LLM 促進了更可持續的預訓練數據獲取方式。