Mastodawn

The Fulcrum ⚒️ ⛓️‍💥 🏴‍☠️11h ago

Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
1/2

Bertrand Caron 1d ago

L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

2/2

Jean-Charles Buttier 1d ago

@BertrandCaron C'est vraiment dramatique et je constate que de plus en plus de site calculent la vitesse avant de nous laisser entrer. Est-ce qu'Internet Archive et son formidable Wayback Machine rencontre les mêmes difficultés ?

Bertrand Caron 1d ago

@jcbuttier je serais curieux de le savoir. L'INA aussi doit être face aux mêmes problèmes.

CelineGuyon 1h ago

@BertrandCaron https://www.eff.org/deeplinks/2026/03/blocking-internet-archive-wont-stop-ai-it-will-erase-webs-historical-record

Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record

Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper. That’s effectively what’s begun happening online in the last few months. The Internet Archive—the world’s largest digital library—has preserved newspapers since it went online in the mid-1990s....

Electronic Frontier Foundation

@jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème

TurboTrain 1d ago

@claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également

Michaël 21h ago

@TurboTrain @claudex @jcbuttier @BertrandCaron

Et tu contribues au problème de la préservation

TurboTrain 14h ago

@Mr_Mick @claudex @jcbuttier @BertrandCaron entre ça et aider les boites d'IA, le choix est vite fait

Michaël 11h ago

@TurboTrain @claudex @jcbuttier @BertrandCaron

Non. Je considère personnellement que la préservation du patrimoine est plus importante que l'ego de ne pas "finir dans une IA"

TurboTrain 11h ago

@Mr_Mick @claudex @jcbuttier @BertrandCaron qui a dit que refuser de participer à l'IA était pour l'ego ? Pas moi en tout cas. Je t'invite à lire https://lareleveetlapeste.fr/1-300-scientifiques-appellent-au-boycott-de-lia-generative/ pour les raisons principales (et il y en a bien d'autres)

1 300 scientifiques appellent au boycott de l'IA générative

Face au déploiement massif de l’IA générative (IAg), des scientifiques appellent à manifester une « objection de conscience ».

La Relève et La Peste

Michaël 10h ago

@TurboTrain @claudex @jcbuttier @BertrandCaron

Oui mais tu contribues à rendre la préservation du patrimoine numérique très compliqué. Et ton impact sur la préservation est bien plus grand que ton impact sur l'IA en refusant.

Et ce qui n'a pas pu être archivé aujourd'hui ne pourra plus l'être à l'avenir.

Bertrand Caron 10h ago

@Mr_Mick @TurboTrain @claudex @jcbuttier

Je comprends que ça fasse débat. Mais la grosse différence avec Internet Archive, c'est que la collecte par la #BnF est mise à disposition uniquement sur site (le sien et celui d'institutions partenaires en province) sur accréditation. Donc ça réduit son utilité sociale d'autant, mais au moins il n'y a pas de risque que ça soit récupéré par les entreprises d'IA.

Michaël 10h ago

@BertrandCaron @TurboTrain @claudex @jcbuttier

Le problème étant que le travail de la BnF n'est pas assez connu. Et donc les administrateurs ne prévoient pas les exceptions nécessaires.

Bertrand Caron 10h ago

@Mr_Mick @TurboTrain @claudex @jcbuttier

Can't agree more - j'aimerais bien que nos collègues communiquent aussi sur les chouettes projets numériques et pas seulement sur les acquisitions prestigieuses. Je suis sûr qu'il y a ici une commu qui recevrait les réflexions numériques un peu pointues avec beaucoup d'appétit !!

TurboTrain 9h ago

@BertrandCaron @Mr_Mick @claudex @jcbuttier si ça n'est pas accessible aux boites d'IA, ça devient beaucoup plus acceptable. Utilisez-vous des IP dédiées pour votre webscraping ?

Bertrand Caron 9h ago

@TurboTrain @Mr_Mick @claudex @jcbuttier je suppose ! mais je vais demander.

Michaël 9h ago

@BertrandCaron @TurboTrain @claudex @jcbuttier

Peut-être proposer un guide pour aider les administrateurs à ce sujet

TurboTrain 8h ago

@Mr_Mick @claudex @jcbuttier @BertrandCaron bof ton argument est le même qu'utilisent les borg euh les boites d'IA, les gafam (et on va éviter le point godwin même s'il me démange) « You will be assimilated. Resistance is futile. »

Michaël 8h ago

@TurboTrain @claudex @jcbuttier @BertrandCaron

Tu m'inventes des arguments?

Non, mon argument est que les dégâts d'une absence de préservation seront bien plus grands qu'un usage marginal de contenu par une IA. Principalement car l'IA n'est pas inéluctable à la différence de la disparition de contenu non préservé et archivé.

Ce que je critique, c'est le fait que ta résistance (sous cette forme) risque de faire plus de dégâts que de bien.

Michaël 8h ago

@TurboTrain @claudex @jcbuttier @BertrandCaron

C'est frustrant sûrement mais les actions qu'on peut faire à titre personnel, à part voter, sont souvent plus négative qu'autre choses. Car si au final, les scrappeurs IA trouvent un moyen, tu n'auras qu'impacter la préservation sans autre effet. Ce serait le plus triste.

@TurboTrain @claudex @jcbuttier @BertrandCaron bonjour, voila un poste de l'EFF qui explique en quoi c'est ine mauvaise idée https://mastodon.social/@eff/116241196892153156

TurboTrain 13h ago

@SRAZKVT @BertrandCaron peut-être que je rates un truc, mais le seul argument valable que j'ai vu est « on perd l'historique, qui est utilisé par plein de gens ». Je comprends leur point de vue, mais ce que font les boites d'IA à l'humanité est bien pire que perdre l'historique du web ! Alors si l'internetarchive aide les boites d'IA (en ne les bloquant pas), il est de mon devoir de bloquer l'internetarchive, c'est aussi simple que ça.

@TurboTrain garder l'historique aura un bien plus grand impact pour les autres humains que l'empecher aura pour les ia (ils sont pas à un site prêt)

Michaël 10h ago

@SRAZKVT @TurboTrain

Oui, l'IA peut disparaître si elle n'est pas rentable mais on ne récupère pas un patrimoine disparu.

nojhan à la double douleur vaudoue 15h ago

@jcbuttier @BertrandCaron Oui, ils ont communiqué dessus récemment.

@BertrandCaron il me souvient en effet que le BnF avait contacté SPIP pour ça. Je ne sais plus si ç'avait été réglé. Je me demande s'il n'y aurait un genre de patte blanche à montrer.

Bertrand Caron 1d ago

@Ysabeau je crois que nos collègues ont l'habitude de discuter avec des gens / organisations qui maintiennent des sites web pour trouver des solutions. Sauf que là ça devient généralisé, et elles ne sont pas assez nombreuses pour engager autant de négociations.

@BertrandCaron Du coup, je pense qu'inventer un système de patte blanche ets peut-être vraiment un bonne idée. Je ne sais du tout comment ça peut se concrétiser cela dit.

Bertrand Caron 1d ago

@Ysabeau effectivement, ça semblerait une solution possible, mais d'ici à ce que ça émerge, il va sans doute y avoir plusieurs années blanches... (je frôle l'ultra-crépidarianisme là parce que ça n'est que mon avis peu informé, mais il s'appuie juste sur une petite expérience de la normalisation et du temps INFINI que ça prend).

@BertrandCaron Mais on peut imaginer des solutions que chacun dans son coin (je pense surtout aux hébergeurs et CMS) pourrait mettre en place déjà.
Après uniformisation etc., c'est une autre paire de manche (bon je ne sais pas de quoi je parle sur le plan technique, une fois de plus).

Tuxicoman 1d ago

Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?

Bertrand Caron 1d ago

@tuxicoman la #BnF ne moissonne que le web public. Exit facebook, Linkedin et toute autre plateforme derrière authentification. Sauf cas très particuliers, à la suite de négos avec les producteurs (par ex., le robot s'authentifie sur les sites de presse quotidienne régionale pour aller chercher les PDF des fascicules, mais c'est un processus qui est mis en place après accord explicite).

Alex Rock 1d ago

@BertrandCaron @tuxicoman Y'a genre 15 ans je bossais pour une filiale d'un très grand groupe d'analytics, section "réputation publique", et on faisait exactement ça : "aspirer" des informations issues de sites (news, blogs, forums, etc.).

Déjà à l'époque on commençait à avoir des restrictions...

Très honnêtement, je vois mal une solution "fiable" apparaître.

C'est exactement comme les spams : si on restreint trop, on rate des choses, si pas assez, on est surchargés :(

Alex Rock 1d ago

@BertrandCaron @tuxicoman
On aurait pu imaginer des "plugins" pour tous les softwares open source (spip, wordpress, drupal, et tous les autres) afin que ces outils permettent "d'autoriser" la BnF.
Sauf que (et je le fais souvent moi-même) parfois la restriction est direct côté serveur, infrastructure réseau, etc., et dans un tel cas, ce n'est peut-être pas le même interlocuteur.
Reste la solution considérablement moins performante mais ""peut-être + efficace" de passer par un "vrai browser"...

Alex Rock 1d ago

@BertrandCaron @tuxicoman En gros : spawn un navigateur quelconque (firefox, chrome...) avec le WebDriver, et le contrôler avec des scripts pour naviguer sur certains sites. Lorsqu'une restriction est rencontrée (type "captcha" ou autre), faire une alerte pour essayer de voir si un humain peut le remplir, ou essayer d'utiliser un autre User-Agent, ou une autre adresse IP, bref, tenter d'autres choses.

Dans tous les cas, ça rend le travail beaucoup plus difficile :(

Alex Rock 1d ago

@BertrandCaron @tuxicoman L'autre solution serait "une participation citoyenne" : idem que pour les wordpress, drupal et autres, fournir un outil qui va faire l'inverse : fournir à la BnF les données directement, et donc il serait à la charge des hébergeurs d'installer ces outils et d'activer une exécution régulière de ceux-ci pour donner les infos à la BnF. Mais encore une fois, c'est "détourner le problème".

Cela dit : mieux vaut plein de solutions pas ouf plutôt qu'une seule inefficace :(

Julien Falgas 🪡1d ago

Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?

Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.

Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.

On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.

Lutin Discret 1d ago

@julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)

Julien Falgas 🪡1d ago

@lutindiscret Je ne connaissais pas. Ma partie c'est plutôt les usages et la conception de dispositifs d'information et de communication.

Ce pourrait être enrichissant de réfléchir à tout ça à partir des besoins concrets de la BnF. Avoir des gens compétents en sécurité ou en crypto serait sans doute un plus.

Je suis certain qu'on doit pouvoir mettre en place des garde-fou ou des moyens de réagir à des injections malveillantes. Sinon, autant jeter le web : lui non plus n'est pas à l'abri de l'injection de contenus malveillants.

Le Monolecte 😷🤬🐧

Si le robot agent de la bnf est clairement identifiable, on devrait pouvoir le laisser passer !

archeenerd 1d ago

@BertrandCaron Effectivement, j'ai constaté ça aussi, les outils mis en place (Anubis chez nous) soulagent bien les serveurs face à la pression des robots mais les crawlers web "légitimes" sont des victimes collatérales de ces mesures. Du coup, des sites institutionnels ne peuvent de facto plus être archivés.
Les guillemets autour de légitime sont volontaires, car qu'est-ce qui distingue (hors système de patte blanche) un robot légitime d'un robot illégitime? L'agressivité de la capture?

Bertrand Caron 1d ago

@archeenerd excellente question à laquelle je laisse de plus experts que moi répondre 😃 ! Et merci du retour !

PulkoMandy 1d ago

@archeenerd @BertrandCaron le simple fait d'utiliser un user agent précis indiquant qui est le robot serait déjà très bien et permettrait de bloquer les robots jugés indésirables assez facilement (à chacun de choisir qui est désirable ou indésirable sur son site). Actuellement il y a beaucoup de robots prétendant être diverses versions de navigateurs classiques, pour ne pas se faire repérer.

Bertrand Caron 1d ago

@pulkomandy @archeenerd dans mon souvenir, le robot de la BnF se présente comme Heritrix (https://en.wikipedia.org/wiki/Heritrix), ce qui le rend déjà assez repérable comme provenant d'une institution de préservation.

Heritrix - Wikipedia

PulkoMandy 1d ago

@BertrandCaron @archeenerd oui, je pense que la BNF fait bien les choses, mais les protections de type Anubis (qui bloquent de façon assez large) sont mises en place surtout à cause de robots ne respectant pas ces règles. En principe Anubis laisse passer les robots qui se déclarent clairement dans le user agent et n'intercepte que les humains et les robots essayant de se faire passer pour des humains. Je ne sais pas ce que font les solutions concurrentes

PulkoMandy 1d ago

@archeenerd @BertrandCaron La deuxième chose serait de respecter le fichier robots.txt et en particulier la règle crawl-delay (qui autorise par exemple pas plus d'une requête toutes les 30 secondes). Mais ceci n'est pas vraiment standardisé, et implémenté seulement par quelques robots.

Là aussi à chacun de décider quelles sont les limites, mais ça ne peut fonctionner que si les robots s'identifient, pas s'ils se font passer pour des utilisateurs "normaux" humains

Bertrand Caron 1d ago

@pulkomandy @archeenerd je crois que la loi sur le dépôt légal l'emporte sur les exigences de robots.txt. Après on fait de la désindexation des collections sur demande des producteurs, mais comme un site web public est considéré au même titre que toute autre production culturelle librement accessible, la BnF a le droit et le devoir de les collecter et de les préserver.

@BertrandCaron As-tu une idée de si c'est la cause du dysfonctionnement actuel de l'accès à EuroPresse auquel l'abonnement BnF permet habituellement d'accéder ?

Bertrand Caron 1d ago

@mab alors pour le coup - non pas vraiment. Si j'ai bien compris, le nombre d'accès par mois à Europresse a été à nouveau atteint, la BnF a négocié une rallonge, qui a été ou est en passe d'être consommée. Europresse semble penser que des lecteur·ice·s pourraient utiliser ces accès pour les moissonner. Apparemment le torchon brûle entre l'institution et Europresse.

@BertrandCaron À tout juste la moitié du mois… ça craint.

J'espère qu'ils trouveront un accord. Mais effectivement, la problématique de moissonage de données n'est probablement pas simple à traiter, surtout en limitant les couts.

Bertrand Caron 1d ago

@mab c'est clair...

C'est étonnant, j'ai fait exactement le même pouet à un an de distance. Il se passe quoi en mars ???

https://digipres.club/@BertrandCaron/114246719859432298

Bertrand Caron (@[email protected])

Les adeptes de l'abo #BnF pour la presse : vous êtes des gourmand·e·s et avez consommé la totalité des articles par mois de notre abonnement à Europresse. Comme le mois passé. Donc c'est diète jusqu'à début avril. Réflexion en cours pour savoir comment on gère cet engouement. (Je fais comme si j'étais acteur là-dedans mais je ne fais que relayer une info.)

digipres.club

@BertrandCaron Alors pour ma part c'est le moment de renouvellement de mon abo BnF !

Mais ma conso EuroPresse se limite à un ou deux articles par semaine en moyenne 🙃

Poslovitch 1d ago

@BertrandCaron donc la BNF archive... Mon blog?

Bertrand Caron 1d ago

@Poslovitch très probablement ! S'il est en .fr, à coup sûr.

Poslovitch 1d ago

@BertrandCaron il est en .fr ! Il y a moyen de savoir si un site est archivé ?

Florent Palluault 23h ago

@Poslovitch @BertrandCaron
Il y a un poste de consultation du DL web à la Bibliothèque Stanislas. Vous pouvez allez voir ce que donne l'archivage dans l'application conçue par la BnF.

@leflaneur19 @Poslovitch @BertrandCaron Sur le site BnF, il y a aussi la liste des sites aspirés, mais pour les consulter il faut effectivement venir sur place ou dans une bibliothèque partenaire en province

Criminelle Onctueuse 1d ago

@BertrandCaron il faudrait un genre de systeme de confiance, la chose la plus simple à laquelle je pense serait un système de whitelist par ip vu qu'on suppose que des organismes tels que internet archive ont des ip fixes facilement identifiables