Le saviez-vous ? Actuellement toutes les grandes plateformes qui proposent des textes en accès ouvert sont gravement compromises par du spam très agressif.
Gallica, OpenEdition, EMAN etc.
C'est une catastrophe silencieuse.
Et évidemment ces infrastructures ne sont pas faites pour supporter des centaines de requêtes/seconde.
Et évidemment ça ne va pas s'arranger.

Edit grâce à @quota_atypique
1) le dernier rapport de l'Arcep https://www.arcep.fr/uploads/tx_gspublication/rapport-IA-generative-defis-internet-ouvert-janvier2026.pdf
2) le rapport du GLAM
https://www.glamelab.org/products/are-ai-bots-knocking-cultural-heritage-offline/

@juliegiovacchini et tout ces sites ont des système de téléchargement en masse en plus, non ? Ils sont pas obligés de passer par le site comme tout le monde ?
@just_chill de ce que je sais, c'est ecore pire quand il y a une API. Par exemple pour Gallica c'est tragique, ils luttent pour ne pas tomber.
@juliegiovacchini @just_chill on dirait que le concept d'externalité négative n'est pas tout à fait maitrisé par les soutiens des progrès de l'IAGen. (Par ses opposants, et par ces promoteurs directs, bien plus.)

@just_chill @juliegiovacchini le problème c'est que les robots sont très bêtes justement.
Ils miment le comportement d'une horde d'internautes qui cliqueraient sur tous les liens au hasard sans aucune coordination (repassent sur les mêmes pages régulièrement)

Quelqu'un pourrait facilement aspirer ce genre de sites de manière efficace (genre, 10000x plus vite) sans causer de graves désagréments, mais ça nécessiterait du travail d'ingénierie...

@citronmecha @just_chill oui exactement et ce sont donc les plateformes publiques qui doivent travailler pendant des heures pour réparer les dégâts causés. Argent public et travail supplémentaire des agents de la recherche et de la culture pour compenser les errances internationales qui ont fait du web le terrain de jeu des prédateurs industriels.
je suis très en colère.

@juliegiovacchini @citronmecha @just_chill

Y aurait pas des solutions à la SpamPoison avec des liens invisibles qui génèrent des données pourries pour étouffer les IA en question (oui ça demande aussi beaucoup de ressources mais le résultat est pas le même)

@juliegiovacchini @citronmecha @just_chill

De manière générale, on devrait compiler quelque-part tout ce qui est utile pour foutre en l'air les boites qui font de l'IA.
Elles font la guerre aux biens publics, donc aux publics. On devrait leur faire la guerre en retour. La guerre, pas protester

@ndjee @citronmecha @just_chill oui mais tout ça ça demande du temps de travail et de l'argent et de la coordination des infras publiques - toutes choses difficiles à trouver en ce moment...