Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
1/2
@BertrandCaron Effectivement, j'ai constaté ça aussi, les outils mis en place (Anubis chez nous) soulagent bien les serveurs face à la pression des robots mais les crawlers web "légitimes" sont des victimes collatérales de ces mesures. Du coup, des sites institutionnels ne peuvent de facto plus être archivés.
Les guillemets autour de légitime sont volontaires, car qu'est-ce qui distingue (hors système de patte blanche) un robot légitime d'un robot illégitime? L'agressivité de la capture?
@archeenerd @BertrandCaron le simple fait d'utiliser un user agent précis indiquant qui est le robot serait déjà très bien et permettrait de bloquer les robots jugés indésirables assez facilement (à chacun de choisir qui est désirable ou indésirable sur son site). Actuellement il y a beaucoup de robots prétendant être diverses versions de navigateurs classiques, pour ne pas se faire repérer.

@archeenerd @BertrandCaron La deuxième chose serait de respecter le fichier robots.txt et en particulier la règle crawl-delay (qui autorise par exemple pas plus d'une requête toutes les 30 secondes). Mais ceci n'est pas vraiment standardisé, et implémenté seulement par quelques robots.

Là aussi à chacun de décider quelles sont les limites, mais ça ne peut fonctionner que si les robots s'identifient, pas s'ils se font passer pour des utilisateurs "normaux" humains

@pulkomandy @archeenerd je crois que la loi sur le dépôt légal l'emporte sur les exigences de robots.txt. Après on fait de la désindexation des collections sur demande des producteurs, mais comme un site web public est considéré au même titre que toute autre production culturelle librement accessible, la BnF a le droit et le devoir de les collecter et de les préserver.