"Was werden die User, die Submitter, die Maschinen tun?", haben sich die Betriber*innen von ZORA (https://www.zora.uzh.ch) vor dem Umstieg von #EPrints auf #DSpace gefragt - und um den konkreten Umgang mit den KI-Crawlern geht es jetzt beim #DSpacePT26
Welcome to Zurich Open Repository and Archive

ZORA

75-80% Bots in den Userstatistiken, 18 Millionen Zugriffe in der ersten Woche durch Google - ZORA war von Anfang an gut nachgefragt, und die robots.txt wird vielfach ignoriert. Apache ModSecurity (zu viel Aufwand)und Fail2Ban (zu viele False Positives) haben nicht gut funktioniert.#DSpacePT26
Resultat: Selber machen. In Zürich mit fünf Schritten: 1) Das Problem mit Hardware erschlagen (diverse Server, Frontend und Backend getrennt, Betrieb in unterschiedlichen Datacenters), 2) Lasttests vorab (mit LOCUST - aufwändig, dann extern vergeben), 3) Bot/Crawler Detection im laufenden Betrieb (NAGIOS 24/7 automatisch, NGINGX Logfile-Analyse manuell, Skripte zum Clustern der Infos aus den Logs) [...] #DSpacePT26
4) Reputationscheck über DNS-Abfragen und https://abuseipdb.com 5) Abwehr (dauerhaftes Blockieren über verschiedene Firewalls, SyncDaemon) #DSpacePT26 https://gitlab.com/jens.witzel/dspace-ddos-tools #DSpacePT26
Das manuelle Analysieren und Blockieren passiert zwei- bis viermal am Tag. Die Uni Zürich vertritt die "böser Türsteher"-Policy: Wer sich einmal danebenbenommen hat, muss dauerhaft draußen bleiben. #DSpacePT26