À l'opposé d'outils comme Anubis (qui essaient de bloquer les boîtes d'IA), il existe des outils pour les polluer (en générant des labyrinthes de pages avec du contenu bidon, souvent avec des chaînes de Markov car c'est peu couteux en CPU).
Cet internaute a également créé un programme qui génère des images bidons, en consommant le moins de CPU possible.
(+ mon avis sur polluer ou bloquer)
https://sebsauvage.net/links/?aRirzQ
Faking a JPEG - Liens en vrac de sebsauvage

@sebsauvage Il est à noter qu'Anubis a publié une nouvelle version qui est compatible avec la navigation sans javascript https://anubis.techaro.lol/blog/release/v1.20.0/#no-js-challenge
Anubis v1.20.0 is now available! | Anubis

Hey all!

@sebsauvage
Ça me rappelle cette vidéo de Kyle Hill sur les AI tar Pits, qui sont des projets fait pour enliser les scrapers dans des pièges sans fin de datas qui polluent les data sets.

https://www.youtube.com/watch?v=vC2mlCtuJiU
Digital Tar Pits - How to Fight Back Against A.I.

YouTube

@sebsauvage il y aussi ça qu'il dont il faudrait s'inspirer

https://idiallo.com/blog/zipbomb-protection

I use Zip Bombs to Protect my Server

The majority of the traffic on the web is from bots. For the most part, these bots are used to discover new content. These are RSS Feed readers, search engines crawling your content, or nowadays AI bo

Ibrahim Diallo Blog

@hyde @sebsauvage

Astucieux. Un fichier contenant la répétition de quelques motifs différant de zéro avec un entête png serait probablement indétectable.

@sebsauvage

La technique de pollution par page aléatoire peut être efficace si tout le monde utilise la même graine aléatoire : la répétition des mêmes "informations" (aberrations) va renforcer leur poids dans le modèle.

Pour illustrer en simplifiant à outrance : si tout le monde écrivait dans ses pages web "2+2=5", il n'y aurait plus aucune calculatrice AI capable de produire un résulat fiable.

@sebsauvage
Je suis pour alimenter L'IA de tout et n'importe quoi, téléversons des tonnes de merdes sans queue ni tête. Merci aux #fediverse de nous informer sur tout programme pouvant véroler cette bouse capitaliste.
#freeinternetofthefuture
@Azzedine
Sauf que c'est dépenser du CPU pour pisser dans l'océan. Pas sûr que ça marche.
@sebsauvage
Laissez-moi rêver d'un Grand Jour du #fediverse 😝🙄
@sebsauvage moi j’aime bien l’idée d’appliquer de la QoS et de passer les sessions reconnues IA à 20Bps. Ça rempli un peu la pile TCP du serveur mais bon.
@sebsauvage
Polluer à mort leurs bases : sur le moyen terme, ça sera totalement dévastateur pour détruire ces boites parasites.