Le saviez-vous ? Actuellement toutes les grandes plateformes qui proposent des textes en accès ouvert sont gravement compromises par du spam très agressif.
Gallica, OpenEdition, EMAN etc.
C'est une catastrophe silencieuse.
Et évidemment ces infrastructures ne sont pas faites pour supporter des centaines de requêtes/seconde.
Et évidemment ça ne va pas s'arranger.

Edit grâce à @quota_atypique
1) le dernier rapport de l'Arcep https://www.arcep.fr/uploads/tx_gspublication/rapport-IA-generative-defis-internet-ouvert-janvier2026.pdf
2) le rapport du GLAM
https://www.glamelab.org/products/are-ai-bots-knocking-cultural-heritage-offline/

Tous les agents de l'ESR on doit savoir qu'on a actuellement des collègues qui bossent le week end, qui bossent la nuit pour que tout ce qui est déployé sur OpenEdition ou Huma-num fonctionne.
Parce que des connards quelque part ont décidé que tout ce qui est en ligne est à eux.
C'est un peu comme si on avait créé un très beau jardin public plein de fleurs et que des centaines de personne débarquaient d'un coup pour absolument toutes les arracher et les revendre à des fleuristes.
Je suis même plus en colère en fait.
C'est au delà.
Je vois le temps et l'énergie dépensés sans compter pour offrir un service de qualité aux collègues et je vois l'environnement dans lequel ces services sont construits de plus en plus hostile à la notion même de service.
Bref profitez de pouvoir encore pour le moment vous promener sur Gallica ou sur les sites publics équivalents.
Je ne sais pas combien de temps ça va tenir si rien de politique n'est fait.
Un truc qu'il faut bien comprendre c'est qu'aucun contenu web n'est à l'abri.
La situation aujourd'hui c'est que tout ce que vous mettez en ligne en accès ouvert va être absorbé et digéré en permanence par des bots soit pour être vendu à des entreprises soit pour entraîner des modèles.
Tous vos précieux contenus personnels sont devenus du MINERAI.
De l'herbe pour les vaches artificielles.
Donc l'accessibilité de ces contenus pour de vrais humains qui veulent juste les lire c'est SECONDAIRE.

Prenons une autre image : vous ne pouvz pas entrer dans la bibliothèque parce que des vandales y sont, qui brûlent les pages des livres pour se chauffer (edit : non parce qu'à la limite ça serait une raison. ils les brûlent juste pour se cuire des saucisses ? imaginez ce que vous voulez) et qui vous empêchent d'entrer.
C'est cool hein ?

C'est à ce prix que vous fabriquez des chats avec des écailles de poisson.

Bon le rapport du GLAM est cauchemardesque en fait (mais très clair, merci à elleux).
"For both technical and legal reasons, bots tend to be optimized to collect data from publicly available websites. As a result, moving collections behind login screens can significantly reduce the amount of bot traffic they receive."

quand je disais que l'internet ouvert est mort, voilà voilà

ça va être très rigolo quand il va falloir expliquer aux tutelles qu'après avoir bataillé pendant des années pour que les institutions renoncent aux login parce que l'open data, on va devoir les réinstaller en catastrophe pour pas que les sites tombent 😭
le rapport de l'arcep est très très intéressant (<3 @quota_atypique ) mais alors c'est pas bon pour le moral non plus parce que j'ai l'impression que 0 intention politique européenne actuellement d'aller dans le sens des préconisations du dit rapport.
@quota_atypique on est en train de re-brûler la bibliothèque d'Alexandrie c'est merveilleux

@juliegiovacchini

Je pense qu'il n'y a qu'une solution à ce problème : remplacer l'accès ouvert par un accès limité à des personnes identifiées dans une chaine confiance.

Je me suis laissé dire qu'un tel mécanisme avait été mis en place pour la diffusion de clefs publiques de chiffrement.

@tanavit @juliegiovacchini effectivement il y a des idées pour renforcer l'aspect humain, comme par exemple cette proposition de webring (en anglais) par @mttaggart
https://taggart-tech.com/ringspace/
Introducing Ringspace: A Proposal for the Human Web

For months, I've been working on a project to demonstrate how we can preserve humanity on the web. It's finally ready for testing.

@benjo

Merci pour ce lien.

Les objectifs annoncés sont intéressant.

Il me "reste" à lire la spécification.

@juliegiovacchini @mttaggart

@juliegiovacchini vivement que la bulle éclate.
@just_chill je pense que c'est trop tard.
c'est foutu.
on va faire le taf tant qu'on peut, on va sauver tout ce qu'on peut, on va s'user à maintenir des contenus propres et accessibles dans de petits espaces sanctuarisés?mais internet ouvert c'est mort.
@juliegiovacchini @just_chill Au grand bonheur des vandales dont le but est de nous revendre ces contenus
@juliegiovacchini et ben on recommencera ailleurs plus tard. Internet est déjà bâti par plein de gens qui bidouillent dans leur coin (regardes-nous), on va pas se laisser abattre par des cons quand même !
@just_chill j'ai un très grand moment de découragement.
tous les fucking jours j'apprends une histoire du même genre, tous les fcking jours depuis des semaines je vois les collègues qui s'épuisent, je vois le stress qui monte, je vois des outils qui marchaient et rendaient les gens autonomes sur leurs contenus ne plus marcher, devenir monétisés, je vois la merde qui recouvre tout, et là vraiment j'ai un sentiment de point de non retour.
@just_chill il y a deux semaines c'est HAL qui n'était plus accessible pendant plusieurs heures.
HAL.
Pour la même raison.
@juliegiovacchini je comprend, c'est pas drôle, ça me peine aussi.

@juliegiovacchini après je comprends un peu le deal de wikipédia avec OpenAI & co. C'est une solution très sale, mais qui permet (temporairement je pense) de rester ouvert (dans tous les sens du terme).

@just_chill

@juliegiovacchini
@just_chill Merci pour l'explication de tout ce qui ne nous est pas visible...

Pour la problématique (que je m'imaginais arriver pour les petits sites perso), j'ai l'impression que le nouveau Solid web de Tim B. Lee pourrait y répondre. Par contre, j'ai un peu regardé, ça a l'air d'un gros bazar à deployer et nécessiter des ressources: on est loin de qques fichiers HTML/CSS pour avoir un site tout simple, idem pour naviguer je crois... Ça a l'air tellement loin de l'existant !

@r3vlibre @just_chill oui, et l'idée de devoir construire des douves autour de chaque site ne remplit pas de joie
@juliegiovacchini Une solution genre crowdsec avec des liste commune d'ip de bots ne serait pas plus efficace ?@r3vlibre @just_chill
@juliegiovacchini Je ne perds pas mon temps sur Mastodon, j'entraine les llms à tenir des discours de gauche

@Nitchevo ah oui j'avoue, c'est une idée de génie.... j'imagine déjà tellement un tas de scénarii de discussion !

@juliegiovacchini

@juliegiovacchini
On pourrait presque dire que ça fait partie du plan : détruire le web ouvert pour rendre la connaissance et les échanges payants.

Vous voulez lire un texte ? Payez donc notre bouse mal digérée par notre vache artificielle.

@helenecollon c'est pas une attaque, c'est pas fait pour bloquer les sites, c'est fait pour récupérer les données. Mais sinon oui c'est le principe.