Le saviez-vous ? Actuellement toutes les grandes plateformes qui proposent des textes en accès ouvert sont gravement compromises par du spam très agressif.
Gallica, OpenEdition, EMAN etc.
C'est une catastrophe silencieuse.
Et évidemment ces infrastructures ne sont pas faites pour supporter des centaines de requêtes/seconde.
Et évidemment ça ne va pas s'arranger.

Edit grâce à @quota_atypique
1) le dernier rapport de l'Arcep https://www.arcep.fr/uploads/tx_gspublication/rapport-IA-generative-defis-internet-ouvert-janvier2026.pdf
2) le rapport du GLAM
https://www.glamelab.org/products/are-ai-bots-knocking-cultural-heritage-offline/

Tous les agents de l'ESR on doit savoir qu'on a actuellement des collègues qui bossent le week end, qui bossent la nuit pour que tout ce qui est déployé sur OpenEdition ou Huma-num fonctionne.
Parce que des connards quelque part ont décidé que tout ce qui est en ligne est à eux.
C'est un peu comme si on avait créé un très beau jardin public plein de fleurs et que des centaines de personne débarquaient d'un coup pour absolument toutes les arracher et les revendre à des fleuristes.
Je suis même plus en colère en fait.
C'est au delà.
Je vois le temps et l'énergie dépensés sans compter pour offrir un service de qualité aux collègues et je vois l'environnement dans lequel ces services sont construits de plus en plus hostile à la notion même de service.
Bref profitez de pouvoir encore pour le moment vous promener sur Gallica ou sur les sites publics équivalents.
Je ne sais pas combien de temps ça va tenir si rien de politique n'est fait.
Un truc qu'il faut bien comprendre c'est qu'aucun contenu web n'est à l'abri.
La situation aujourd'hui c'est que tout ce que vous mettez en ligne en accès ouvert va être absorbé et digéré en permanence par des bots soit pour être vendu à des entreprises soit pour entraîner des modèles.
Tous vos précieux contenus personnels sont devenus du MINERAI.
De l'herbe pour les vaches artificielles.
Donc l'accessibilité de ces contenus pour de vrais humains qui veulent juste les lire c'est SECONDAIRE.
@juliegiovacchini vivement que la bulle éclate.
@just_chill je pense que c'est trop tard.
c'est foutu.
on va faire le taf tant qu'on peut, on va sauver tout ce qu'on peut, on va s'user à maintenir des contenus propres et accessibles dans de petits espaces sanctuarisés?mais internet ouvert c'est mort.
@juliegiovacchini et ben on recommencera ailleurs plus tard. Internet est déjà bâti par plein de gens qui bidouillent dans leur coin (regardes-nous), on va pas se laisser abattre par des cons quand même !
@just_chill j'ai un très grand moment de découragement.
tous les fucking jours j'apprends une histoire du même genre, tous les fcking jours depuis des semaines je vois les collègues qui s'épuisent, je vois le stress qui monte, je vois des outils qui marchaient et rendaient les gens autonomes sur leurs contenus ne plus marcher, devenir monétisés, je vois la merde qui recouvre tout, et là vraiment j'ai un sentiment de point de non retour.

@juliegiovacchini
@just_chill Merci pour l'explication de tout ce qui ne nous est pas visible...

Pour la problématique (que je m'imaginais arriver pour les petits sites perso), j'ai l'impression que le nouveau Solid web de Tim B. Lee pourrait y répondre. Par contre, j'ai un peu regardé, ça a l'air d'un gros bazar à deployer et nécessiter des ressources: on est loin de qques fichiers HTML/CSS pour avoir un site tout simple, idem pour naviguer je crois... Ça a l'air tellement loin de l'existant !

@r3vlibre @just_chill oui, et l'idée de devoir construire des douves autour de chaque site ne remplit pas de joie
@juliegiovacchini Une solution genre crowdsec avec des liste commune d'ip de bots ne serait pas plus efficace ?@r3vlibre @just_chill