@amelliug

42 Followers
283 Following
517 Posts
Des firmes d'IA achètent, numérisent puis détruisent des livres anciens pour être les seuls à les posséder https://www.rts.ch/info/sciences-tech/2026/article/des-firmes-d-ia-achetent-numerisent-puis-detruisent-des-livres-anciens-29283742.html
Des firmes d'IA achètent, numérisent puis détruisent des livres anciens

Des palettes de vieux livres venant de librairies du monde entier sont expédiées vers les Etats-Unis. Des entreprises spécialisées en IA seraient à l'origine de cet accaparement massif de patrimoine. Elles utiliseraient ces livres comme données brutes pour entraîner leurs modèles de langage, puis les jetteraient après leur numérisation.

Radio Télévision Suisse
Ça fait longtemps que je l'ai pas vu alors je me dévoue
C'est quand même hallucinant que le débat actuel consécutif à la #canicule se focalise uniquement sur la #climatisation et ne porte pas sur la sécurité #alimentaire. Donc, les pseudo experts et les journalistes des chaînes d'info nous stigmatisent en disant que nous avons 15 ans de retard sur la climatisation, blabla. Alors, on va climatiser, la collectivité va payer. Mais qu'en est-il des cultures ? Elles resteront exposées. On traite les symptômes pour notre confort, on ignore les causes...
"Le RN, ce sont les héritiers des Waffen SS qui ont assassiné mon grand-père […] Marc Bloch était antifasciste."

Suzette Bloch, petite-fille de l’historien et résistant, invitée de @[email protected] ce matin.
Réaction de #GabrielZucman suite aux propos de Patrick Pouyanné, PDG de Total Énergie devant la commission des finances de l'Assemblée Nationale du 17 juin 2026.
#finance #paradisfiscaux

Bon alors que je nettoie mon labo venez on va parler sécurité au travail

#MastoArt #dessin #bd

Le niveau d'absurdité et de gaspillage induit par les crawlers IA c'est quand même impressionnant.

En 33 jours, mon serveur web s'est mangé 2,21 milliards de requêtes HTTP. Si je me trompe pas ça fait une moyenne de 775 requêtes par seconde.

  • 54 millions viennent de Google
  • 132 millions de Facebook
  • 187 millions d'OpenAI
  • 554 millions de Claude/Anthroopic
  • 893 millions de bots déguisés en particuliers depuis des IP résidentielles
  • Et le reste c'est du "autre"

Ce traffic a consommé 5,40 terabytes de bande passante.

Le site qui a reçu le plus de traffic (787 millions) c'est le wordpress d'une asso ultra locale qui doit avoir quelques centaines de visiteurs humains par mois, grand max.

Edit : vu que ce fil a circulé bien plus que je m'y attendais, je vous invite à lire la suite publiée ce matin pour avoir plus de contexte sur ces chiffres

Doordevil (@[email protected])

Okay ce fil a été repartagé bien plus que ce que j'imaginais, donc je pense qu'il est nécessaire de contextualiser un peu plus ces données. Déjà, le serveur qui héberge ces sites est un VPS OVH classique sur lequel j'héberge une quinzaine de domaines. Trois d'entre eux sont des sites WordPress, le reste sont des services divers et variés (Miniflux, Seafile, Bitwarden, une gallerie photo, des sites statiques…). **Un mot sur Iocaine** J'en ai déjà parlé ici à plusieurs reprises mais j'ai oublié de le mentionner au début du fil. En mars 2025, j'ai déployé sur ce serveur un outil appelé Iocaine, qui permet de piéger les robots d'indexation IA. À l'époque, j'avais expliqué l'essentiel dans [cet article de blog](https://agate.blue/2025/03/27/Pi%C3%A9ger-les-robots-d'indexation-gr%C3%A2ce-%C3%A0-nginx-et-iocaine.html). Même si les exemples de codes sont obsolètes, l'outil fonctionnent toujours de la même manière : lorsqu'un visiteur indésirable est détecté, plutôt que de refuser de servir la page demandée, on va lui servir une fausse page. Cette page est bourrée de lien vers d'autres fausses pages, elles mêmes bourrées de liens vers d'autres fausses pages. À l'infini. En pratique, ça envoie ce traffic dans un labyrinthe automatiquement créé. Si vous voulez voir à quoi ça ressemble, voici [un lien qui vous envoie dans le labyrinthe](https://amazeing.agate.blue). Cliquez sur n'importe quel lien de cette page, et vous arrivez sur une autre page similaire, mais *avec une URL différente* (c'est important). Pourquoi ?

Eldritch Café

Les Bots d’IA nous pourrissent la vie, on leur rend bien

Introduction : comment ça marche un serveur web (rapidement)

Chez Octopuce, on infogère des serveurs, et on surveille de près leur activité pour s’assurer qu’ils fournissent les pages web de nos clients dans les meilleures conditions. Une page web, c’est un gros bloc de HTML, le plus souvent calculé par un logiciel côté serveur (wordpress, symfony, python …) et des tas de petits fichiers statiques (js, css, jpg …). Le plus souvent, chaque calcul de page HTML prend un peu de ressource sur le serveur : des cycles CPU, de la RAM, quelques requêtes sur une base de données (Mariadb, Redis …). On doit donc s’assurer au maximum que les visites sur les sites de nos clients sont légitimes : si quelqu’un fait trop de visites illégitimes sur un site, cela consomme des ressources et peut ralentir sérieusement le service des autres internautes.

Jusqu’à 2023, le web était, finalement plutôt calme : si quelques robots d’indexation de site passaient régulièrement et légitimement sur nos serveurs (googlebot, bingbot essentiellement, et quelques autres) ll arrivait qu’un robot plus zélé ou moins bien codé qu’un autre (oui, on parle de toi Ahrefsbot, mais tu n’es pas le seul, loin de là !) doive être bloqué par notre équipe pour éviter de ralentir un serveur d’un client.

L’IApocalypse et les robots tueurs (de serveurs)

depuis 2023, et les délires industriels mondiaux de l’IA, nous avons vu arriver des nouveaux bots bien mal codés, aux profils de comportement très divers. Peu à peu, certains serveurs de nos clients (souvent les moins optimisés) se sont vus saturés, CPU et RAM au taquet.

Au début, nous arrivions à comprendre ce qu’il se passe : un robot passait, d’un genre nouveau (GPTBot et consorts) et ne sachant pas bien « crawler » les sites web, se retrouvait à aspirer en boucle des milliers de sous-sous-page d’un site, des lieux ou personne n’allait d’habitude, défiant les caches de nos clients et nécessitant beaucoup de ressource. Pas grave, on a l’habitude : on bloque sur la base du « User-Agent » (le nom que le robot annonce quand il vient aspirer la page) et tout va bien.

Hélas, les délires de l’industrie étant ce qu’ils sont, et les budgets associés à ces délires visiblement illimités, sont apparus ensuite de nouveaux robots, qui se « cachaient » en utilisant le nom d’un navigateur connu « Firefox 122 », ou « Chrome 37 ». Tout aussi mal codés, ils sont alors plus difficile à bloquer. On a alors utilisé 2 techniques. La première, « la bourrin » : on bloque toutes les adresses IPs du prestataire utilisé par ces robots, quand elles sont facile à détecter (par exemple, toutes les IPs d’Alibaba, gros prestataire chinois, qui intéresse peu ou pas nos clients de toute façon). La seconde technique était plus rigolote : souvent, ces robots utilisaient des noms de navigateurs représentant littéralement 0 % du trafic Internet de 2024, par exemple des vieux téléphone mobile Sony Ericsson, ou des version de Firefox ou Chrome périmées depuis de nombreuses années. On bloque donc à nouveau…

Reste que cela prend du temps, du temps d’ingénieur chargé de comprendre et bloquer ces pénibles (c’est le nom poli qu’on leur donne) et aussi, mais surtout, du temps de CPU, de la bande passante, de l’usure de serveur et de SSD, donc, un coût non négligeable pour Octopuce et donc pour ses clients. En 2024, on a commencé à se demander si ce surcoût pour toute société d’hébergement était pris en compte dans le bilan carbone des sociétés d’IA

Le boss de fin de niveau : des proxies, des proxies, partout

En 2025, on a vu apparaître un nouveau type de robot nocif, qui cette fois-ci est assez indétectable, et a commencé à nous pourrir la vie :

  • ils se cachent
  • ils utilisent un user-agent légitime et récent (Safari / Chrome / Firefox en gros)
  • ils ne font que 1 à 5 demande de page par adresse IP.

En pratique, on pourrait se dire « s’ils ne demandent que une à 5 page, ce n’est pas si grave, non ? »

Sauf que s’ils ne font que 1 à 5 demande par IP (et le plus souvent 1 à 2), ils ont plusieurs millions d’adresses IP distinctes (!!!). Pour ceux qui connaissent un peu l’Internet, disposer d’un tel pool d’adresses IPs différentes nécessite de gros moyens. Nous avons eu en septembre 2025 un crawl sauvage d’un tel robot qui, en l’espace de 2 semaines, a utilisé 1 300 000 adresses IPs distinctes, dont 950 000 ne faisaient que 1 seul appel de page. Un tel nombre d’adresses IP c’est ce qu’on appelle en réseau un « /11 », et seuls de très gros opérateurs peuvent se payer ça (orange, free, par exemple).

Sur le coup, on s’est dit : Pas grave, on va bloquer intégralement l’opérateur fautif, tant pis pour ses clients s’il y en a des légitimes. Sauf que, après analyse, on a découvert que ces adresses IPs venaient de centaines d’opérateurs distincts dans presque tous les pays ! Avec une sur-représentation du Brésil, de la Chine et de quelques autres pays inattendus de nos clients toutefois, mais on ne peut cependant pas bloquer intégralement ces pays sur nos serveurs…

À ce jour, nous n’avons pas trouvé de solution non-intrusive contre ces robots. Pour l’instant on espère juste qu’ils n’attaqueront pas nos clients, notamment les plus fragiles (ceux aux CMS un peu coûteux en ressource à chaque page, faute de cache…)

Il existe tout de même des solutions comme Anubis qui affichent une page demandant un calcul compliqué à votre navigateur avant d’autoriser la connexion à un site web. Anubis n’est hélas pas transparent pour les internautes : il affiche une page même si brièvement, le temps de résoudre le calcul demandé de manière automatique. Aucune interaction humaine n’est requise, contrairement aux Captcha, mais c’est quand même un outil plus compliqué à installer, et nécessite l’approbation de notre client.

Depuis ces attaques, on a trouvé ce qui semblerait être la source d’un si grand nombre d’adresses IPs attaquantes : certaines applications sur Android utilisent les téléphones sur lesquels ils sont installés pour offrir une partie de votre trafic (mobile ou wifi) au propriétaire de l’app installée ! Ces apps utilisent une bibliothèque nommée ProxyLib renommée plus tard SDK LumiApps, qui permet donc de monétiser votre bande passante mobile. Ce type de code est probablement illégal et assurément illégitime, mais tant que personne ne fait rien, ils pourront nuire mondialement.

En écrivant cet article, on a pu retrouver une entreprise offrant un tel service, à prix d’or, et se vantant, typiquement, ce mois-ci, d’avoir accès à 800 000 adresses IPs résidentielles américaines …

Conclusion :

Des robots d’IA aspirent de manière indiscriminée les sites web du monde entier, souvent en ne respectant pas les fichiers robots.txt, parfois en se cachant volontairement, voire en utilisant des méthodes illégales.

Ces robots entrainent un surcout d’énergie, de ressource et de temps d’ingénieur pour être contournés ou bloqués, et ce surcout, important, n’est assurément pas compté dans les bilan carbone sur le cycle de vie de ces services d’IA.

Être hébergeur de serveurs, en 2025, c’est aussi prendre en compte ces catégories particulières de pénibles…

Les trucs qu'on voudrait dire à Darmanin si on l'avait en face.

Du coup merci à la députée Gabrielle Cathala.

#justice
#protectionmineurs
Nicole Ferroni a réagi suite à la déclaration du président de la république sur les moyens de la justice et a posté cette vidéo sur son compte Instagram.