#開源分享 中國清華大學和卡內基梅隆大學開源了一個智慧爬蟲系統:Crawl4LLM
以前爬100個網頁,現在爬21個就能達到同樣效果,效率提高了近5倍

Crawl4LLM根據網頁對LLM預訓練的影響力來選擇要爬取的網頁,先評估哪些網頁更有價值,對訓練模型更有幫助,優先抓取高價值網頁

支援三種爬取模式,Crawl4LLM模式、隨機爬取、基於連結數量的爬取

支援定期保存爬蟲狀態,提供了資料瀏覽工具

提供了完整工具鏈,爬取網頁、提取檔案 ID、獲取文件內容,可以直接與DCLM預訓練框架對接

專案地址: github.com/cxcscmu/Crawl4LLM

#資料爬取 #Crawl4LLM #爬蟲 #AI爬取系統