Mastodawn

#開源分享中國清華大學和卡內基梅隆大學開源了一個智慧爬蟲系統：Crawl4LLM
以前爬100個網頁，現在爬21個就能達到同樣效果，效率提高了近5倍

Crawl4LLM根據網頁對LLM預訓練的影響力來選擇要爬取的網頁，先評估哪些網頁更有價值，對訓練模型更有幫助，優先抓取高價值網頁

支援三種爬取模式，Crawl4LLM模式、隨機爬取、基於連結數量的爬取

支援定期保存爬蟲狀態，提供了資料瀏覽工具

提供了完整工具鏈，爬取網頁、提取檔案 ID、獲取文件內容，可以直接與DCLM預訓練框架對接

專案地址： github.com/cxcscmu/Crawl4LLM