Le saviez-vous ? Actuellement toutes les grandes plateformes qui proposent des textes en accès ouvert sont gravement compromises par du spam très agressif.
Gallica, OpenEdition, EMAN etc.
C'est une catastrophe silencieuse.
Et évidemment ces infrastructures ne sont pas faites pour supporter des centaines de requêtes/seconde.
Et évidemment ça ne va pas s'arranger.

Edit grâce à @quota_atypique
1) le dernier rapport de l'Arcep https://www.arcep.fr/uploads/tx_gspublication/rapport-IA-generative-defis-internet-ouvert-janvier2026.pdf
2) le rapport du GLAM
https://www.glamelab.org/products/are-ai-bots-knocking-cultural-heritage-offline/

Je vais arrêter de dire que je suis anti IAgen. Je suis pas anti IAgen, je suis pro Internet.

@juliegiovacchini

> Je suis pas anti IAgen, je suis pro Internet.

Celle-là, j'ai envie de te la piquer pour en faire ma signature de profil ! :D

@fchaix be my guest ! licence domaine public :-D
Tous les agents de l'ESR on doit savoir qu'on a actuellement des collègues qui bossent le week end, qui bossent la nuit pour que tout ce qui est déployé sur OpenEdition ou Huma-num fonctionne.
Parce que des connards quelque part ont décidé que tout ce qui est en ligne est à eux.
C'est un peu comme si on avait créé un très beau jardin public plein de fleurs et que des centaines de personne débarquaient d'un coup pour absolument toutes les arracher et les revendre à des fleuristes.
Je suis même plus en colère en fait.
C'est au delà.
Je vois le temps et l'énergie dépensés sans compter pour offrir un service de qualité aux collègues et je vois l'environnement dans lequel ces services sont construits de plus en plus hostile à la notion même de service.
Bref profitez de pouvoir encore pour le moment vous promener sur Gallica ou sur les sites publics équivalents.
Je ne sais pas combien de temps ça va tenir si rien de politique n'est fait.
Un truc qu'il faut bien comprendre c'est qu'aucun contenu web n'est à l'abri.
La situation aujourd'hui c'est que tout ce que vous mettez en ligne en accès ouvert va être absorbé et digéré en permanence par des bots soit pour être vendu à des entreprises soit pour entraîner des modèles.
Tous vos précieux contenus personnels sont devenus du MINERAI.
De l'herbe pour les vaches artificielles.
Donc l'accessibilité de ces contenus pour de vrais humains qui veulent juste les lire c'est SECONDAIRE.

Prenons une autre image : vous ne pouvz pas entrer dans la bibliothèque parce que des vandales y sont, qui brûlent les pages des livres pour se chauffer (edit : non parce qu'à la limite ça serait une raison. ils les brûlent juste pour se cuire des saucisses ? imaginez ce que vous voulez) et qui vous empêchent d'entrer.
C'est cool hein ?

C'est à ce prix que vous fabriquez des chats avec des écailles de poisson.

Bon le rapport du GLAM est cauchemardesque en fait (mais très clair, merci à elleux).
"For both technical and legal reasons, bots tend to be optimized to collect data from publicly available websites. As a result, moving collections behind login screens can significantly reduce the amount of bot traffic they receive."

quand je disais que l'internet ouvert est mort, voilà voilà

ça va être très rigolo quand il va falloir expliquer aux tutelles qu'après avoir bataillé pendant des années pour que les institutions renoncent aux login parce que l'open data, on va devoir les réinstaller en catastrophe pour pas que les sites tombent 😭
le rapport de l'arcep est très très intéressant (<3 @quota_atypique ) mais alors c'est pas bon pour le moral non plus parce que j'ai l'impression que 0 intention politique européenne actuellement d'aller dans le sens des préconisations du dit rapport.
@quota_atypique on est en train de re-brûler la bibliothèque d'Alexandrie c'est merveilleux
@juliegiovacchini vivement que la bulle éclate.
@just_chill je pense que c'est trop tard.
c'est foutu.
on va faire le taf tant qu'on peut, on va sauver tout ce qu'on peut, on va s'user à maintenir des contenus propres et accessibles dans de petits espaces sanctuarisés?mais internet ouvert c'est mort.
@juliegiovacchini @just_chill Au grand bonheur des vandales dont le but est de nous revendre ces contenus
@juliegiovacchini et ben on recommencera ailleurs plus tard. Internet est déjà bâti par plein de gens qui bidouillent dans leur coin (regardes-nous), on va pas se laisser abattre par des cons quand même !
@just_chill j'ai un très grand moment de découragement.
tous les fucking jours j'apprends une histoire du même genre, tous les fcking jours depuis des semaines je vois les collègues qui s'épuisent, je vois le stress qui monte, je vois des outils qui marchaient et rendaient les gens autonomes sur leurs contenus ne plus marcher, devenir monétisés, je vois la merde qui recouvre tout, et là vraiment j'ai un sentiment de point de non retour.
@just_chill il y a deux semaines c'est HAL qui n'était plus accessible pendant plusieurs heures.
HAL.
Pour la même raison.
@juliegiovacchini je comprend, c'est pas drôle, ça me peine aussi.

@juliegiovacchini après je comprends un peu le deal de wikipédia avec OpenAI & co. C'est une solution très sale, mais qui permet (temporairement je pense) de rester ouvert (dans tous les sens du terme).

@just_chill

@juliegiovacchini
@just_chill Merci pour l'explication de tout ce qui ne nous est pas visible...

Pour la problématique (que je m'imaginais arriver pour les petits sites perso), j'ai l'impression que le nouveau Solid web de Tim B. Lee pourrait y répondre. Par contre, j'ai un peu regardé, ça a l'air d'un gros bazar à deployer et nécessiter des ressources: on est loin de qques fichiers HTML/CSS pour avoir un site tout simple, idem pour naviguer je crois... Ça a l'air tellement loin de l'existant !

@r3vlibre @just_chill oui, et l'idée de devoir construire des douves autour de chaque site ne remplit pas de joie
@juliegiovacchini Une solution genre crowdsec avec des liste commune d'ip de bots ne serait pas plus efficace ?@r3vlibre @just_chill
@juliegiovacchini

Perso, je vois une solution, c'est de forker internet qui tourne sur le protocole https. Et passer sur un autre protocole comme gemini.

www.glukhov.org/fr/post/2025/10/gemini-protocol/

Ça n'arretera pas le bot mais si ça persiste autant commencer par former les gens au Dark Net, gemini (protocole)...et on verra la gueule des États et entreprises.

On a pas à accepter cette situation. On pourrait imaginer une sorte d'internet noir pour faire prendre conscience à la population cette situation et offrir un tableau négatif à l'IA auprès du grand public.

Bon après la mise en oeuvre, c'est bcp d'énergie aussi.

@just_chill
Protocole Gemini : Une alternative minimaliste au Web

Découvrez le protocole Gemini – un protocole léger et axé sur la confidentialité qui propose une alternative sécurisée et simple au web moderne, avec des outils pour héberger votre propre capsule.

Rost Glukhov | Site personnel et blog technique

@juliegiovacchini
On pourrait presque dire que ça fait partie du plan : détruire le web ouvert pour rendre la connaissance et les échanges payants.

Vous voulez lire un texte ? Payez donc notre bouse mal digérée par notre vache artificielle.

@helenecollon c'est pas une attaque, c'est pas fait pour bloquer les sites, c'est fait pour récupérer les données. Mais sinon oui c'est le principe.
@juliegiovacchini C'est quoi l'ESR?
@finette75
Enseignement Supérieur et la Recherche
@juliegiovacchini et tout ces sites ont des système de téléchargement en masse en plus, non ? Ils sont pas obligés de passer par le site comme tout le monde ?
@just_chill de ce que je sais, c'est ecore pire quand il y a une API. Par exemple pour Gallica c'est tragique, ils luttent pour ne pas tomber.
@juliegiovacchini @just_chill on dirait que le concept d'externalité négative n'est pas tout à fait maitrisé par les soutiens des progrès de l'IAGen. (Par ses opposants, et par ces promoteurs directs, bien plus.)

@just_chill @juliegiovacchini le problème c'est que les robots sont très bêtes justement.
Ils miment le comportement d'une horde d'internautes qui cliqueraient sur tous les liens au hasard sans aucune coordination (repassent sur les mêmes pages régulièrement)

Quelqu'un pourrait facilement aspirer ce genre de sites de manière efficace (genre, 10000x plus vite) sans causer de graves désagréments, mais ça nécessiterait du travail d'ingénierie...

@citronmecha @just_chill oui exactement et ce sont donc les plateformes publiques qui doivent travailler pendant des heures pour réparer les dégâts causés. Argent public et travail supplémentaire des agents de la recherche et de la culture pour compenser les errances internationales qui ont fait du web le terrain de jeu des prédateurs industriels.
je suis très en colère.

@juliegiovacchini @citronmecha @just_chill

Y aurait pas des solutions à la SpamPoison avec des liens invisibles qui génèrent des données pourries pour étouffer les IA en question (oui ça demande aussi beaucoup de ressources mais le résultat est pas le même)

@juliegiovacchini @citronmecha @just_chill

De manière générale, on devrait compiler quelque-part tout ce qui est utile pour foutre en l'air les boites qui font de l'IA.
Elles font la guerre aux biens publics, donc aux publics. On devrait leur faire la guerre en retour. La guerre, pas protester

@ndjee @citronmecha @just_chill oui mais tout ça ça demande du temps de travail et de l'argent et de la coordination des infras publiques - toutes choses difficiles à trouver en ce moment...
@juliegiovacchini quand tu dis spam, c'est les robots des IA qui passent pour tout pomper et ça pète le site ou son accès par surcharge c'est ça ? (Premier degré, j'essaie de comprendre ce merdier)
@GeorgiaSoupault oui, ça inonde de requêtes automatiques et ça ralentit les sites jusqu'à ce qu'ils ne soient plus consultables.

@juliegiovacchini beaucoup de sites déploient anubis pour contrer ça, j'imagine que ça doit être un peu efficace.

mais oui avoir un site public avec du contenu semble de plus en plus compliqué à assumer.

@tshirtman anubis est utilisé déjà par plusieurs infras publiques, ça ne suffit pas toujours et ça demande aussi du boulot de maintenance/déploiement etc. et de l'adaptation parce qu'en face les contournements se développent vite aussi.
ça ne va pas être tenable éternellement.
@juliegiovacchini abandonner http et passer à BitTorrent...
@tshirtman

@ffeth @juliegiovacchini le soucis justement, c’est que c’est les clients qui utilisent http n’importe comment même quand il y a de meilleurs sources.

Je connais quelqu’un qui a fait un frontend a reddit pour éviter le tracking, il est obligé de ban la moitié des IP de la planète pour pas se faire DDOS, alors que reddit a une api json pour tout ce qu’il expose.

C’est relou si Anubis suffit pas. Va falloir des challenges plus sérieux et donc moins accessibles.

@juliegiovacchini

Je sais, je vois, je rage et je compatis.

D’un autre côté c’est bien la première fois de ma vie que je me réjouis de devoir régulièrement attendre qu’un site web valide que je suis humaine! Désormais j’approuve, je patiente, et je remercie intérieurement mes collègues de leur travail.
Bisous

#resistance

@Filambulle franchement ielles sont héroïques, on leur doit de pouvoir continuer à travailler...
@juliegiovacchini @quota_atypique
Merci pour cette info, et la découverte (déprimante) que de gros sites institutionnels sont touchés. Je co-anime un agenda militant en ligne, et on a constaté des nombres de visites démesurés, avec effectivement des conséquences réelles et sérieuses sur les infrastructures et leur dimensionnement. Et encore, on ne publie pas tant de contenu. Tout le monde va être touché à différentes échelles. 😥