Hallo!

Wir hosten ja (bekanntlich?) auch https://feddit.org, die größte Lemmy Instanz im DACH-Raum. Da gab es in letzter Zeit leider ein paar Ausfälle.

Auslöser: unterm Strich wieder AI/LLM scraper bots.

MMn Ein weiteres Signal dafür, dass diesem Unwesen endlich Grenzen gesetzt werden müssen. Es wird langsam unmöglich, öffentlich zugängliche Webservices zu betreiben, da die scraper so zahlreich und aggressiv sind und laufend für hohe Serverlast und downtimes verantwortlich sind.

Was das global gesehen zusätzlich für einen vollkommen sinnlosen Energieverbrauch bedeutet möchte ich gar nicht wissen 🙈 .

Details dazu in unserer Wiki als RCA:

https://wiki.fediverse.foundation/books/fediverse-foundation-announcements/page/incident-fedditorg-partial-disruption-2025-05-02-2025-05-08

Viele Grüße und ein schönes WE, eure
Fediverse Foundation

#FediAdmin #fedditorg #lemmy #noai #FediverseFoundation #wienops

feddit.org

Lemmy

@b2c Besteht da ein Zusammenhang mit KI, dass so viel „gescraped“ wird? Ich glaube, so etwas schon einmal gelesen zu haben.

Wenn dem so ist: Da bestehen Zusammenhänge, die man als Außenstehender und nicht damit befasster gar nicht bedenkt.

@robnikd60 Ja genau. Firmen wie ChatGPT, Anthropic, und natürlich die üblichen Verdächtigen wie GAFAM etc. verstoßen laufend gegen die Nutzungsbedingungen unserer Instanzen (und praktisch aller anderen Websites da draussen) und stehlen Daten, um ihre AI Modelle zu trainieren.
@b2c jap habe darüber die letzten Tage auch geschrieben. Unser Kodinerds.net Forum benötigt teilweise 50-75% seiner CPU Zyklen für AI Scraper. Anthropics Claudebot ist bei weitem der aggressivste. Habe zumindest die Scraper die einen dementsprechenden User Agent nutzen nun per nginx Rule und Robots.txt rausgefiltert. Demnächst wir Anubis vorgeschaltet.