Ahoi! Zum Wochenende mal wieder etwas Datenwissenschaft aus dem Projektblog:
Und zwar geht es um 150.000 robots.txt-Dateien und wie häufig den neuen KI-Crawlern von GPT, Common Crawl, Google und Apple das Abgrasen kompletter Webdomains verwehrt wird.
In Anbetracht, dass es diese Bots vor einem Jahr noch gar nicht gab, sind Sperrraten von 7% (GPTBot) schon eine heftige Gegenreaktion auf die generativen KIs, IMHO.