Mastodawn

rivva Jul 28, 2024

Ahoi! Zum Wochenende mal wieder etwas Datenwissenschaft aus dem Projektblog:

Und zwar geht es um 150.000 robots.txt-Dateien und wie häufig den neuen KI-Crawlern von GPT, Common Crawl, Google und Apple das Abgrasen kompletter Webdomains verwehrt wird.

In Anbetracht, dass es diese Bots vor einem Jahr noch gar nicht gab, sind Sperrraten von 7% (GPTBot) schon eine heftige Gegenreaktion auf die generativen KIs, IMHO.

https://blog.rivva.de/ki-crawler-zugriff-verweigert

#robotstxt #genai #crawler

KI-Crawler? Zugriff verweigert! — Rivva Blog