Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
1/2

L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

2/2

@BertrandCaron C'est vraiment dramatique et je constate que de plus en plus de site calculent la vitesse avant de nous laisser entrer. Est-ce qu'Internet Archive et son formidable Wayback Machine rencontre les mêmes difficultés ?
@jcbuttier je serais curieux de le savoir. L'INA aussi doit être face aux mêmes problèmes.
Blocking the Internet Archive Won’t Stop AI, But It Will Erase the Web’s Historical Record

Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper. That’s effectively what’s begun happening online in the last few months. The Internet Archive—the world’s largest digital library—has preserved newspapers since it went online in the mid-1990s....

Electronic Frontier Foundation
@BertrandCaron @jcbuttier l’ina gère la sauvegarde du web ? Je croyais que l’institution ne s’occupait que de la télé ?
@jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème
@claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également

@TurboTrain @claudex @jcbuttier @BertrandCaron

Et tu contribues au problème de la préservation

@Mr_Mick @claudex @jcbuttier @BertrandCaron entre ça et aider les boites d'IA, le choix est vite fait

@TurboTrain @claudex @jcbuttier @BertrandCaron

Non. Je considère personnellement que la préservation du patrimoine est plus importante que l'ego de ne pas "finir dans une IA"

@Mr_Mick @claudex @jcbuttier @BertrandCaron qui a dit que refuser de participer à l'IA était pour l'ego ? Pas moi en tout cas. Je t'invite à lire https://lareleveetlapeste.fr/1-300-scientifiques-appellent-au-boycott-de-lia-generative/ pour les raisons principales (et il y en a bien d'autres)
1 300 scientifiques appellent au boycott de l'IA générative

Face au déploiement massif de l’IA générative (IAg), des scientifiques appellent à manifester une « objection de conscience ».

La Relève et La Peste

@TurboTrain @claudex @jcbuttier @BertrandCaron

Oui mais tu contribues à rendre la préservation du patrimoine numérique très compliqué. Et ton impact sur la préservation est bien plus grand que ton impact sur l'IA en refusant.

Et ce qui n'a pas pu être archivé aujourd'hui ne pourra plus l'être à l'avenir.

@Mr_Mick @TurboTrain @claudex @jcbuttier

Je comprends que ça fasse débat. Mais la grosse différence avec Internet Archive, c'est que la collecte par la #BnF est mise à disposition uniquement sur site (le sien et celui d'institutions partenaires en province) sur accréditation. Donc ça réduit son utilité sociale d'autant, mais au moins il n'y a pas de risque que ça soit récupéré par les entreprises d'IA.

@BertrandCaron @TurboTrain @claudex @jcbuttier

Le problème étant que le travail de la BnF n'est pas assez connu. Et donc les administrateurs ne prévoient pas les exceptions nécessaires.

@Mr_Mick @TurboTrain @claudex @jcbuttier

Can't agree more - j'aimerais bien que nos collègues communiquent aussi sur les chouettes projets numériques et pas seulement sur les acquisitions prestigieuses. Je suis sûr qu'il y a ici une commu qui recevrait les réflexions numériques un peu pointues avec beaucoup d'appétit !!

@BertrandCaron @Mr_Mick @claudex @jcbuttier si ça n'est pas accessible aux boites d'IA, ça devient beaucoup plus acceptable. Utilisez-vous des IP dédiées pour votre webscraping ?
@TurboTrain @Mr_Mick @claudex @jcbuttier je suppose ! mais je vais demander.

@BertrandCaron @TurboTrain @claudex @jcbuttier

Peut-être proposer un guide pour aider les administrateurs à ce sujet

@Mr_Mick @claudex @jcbuttier @BertrandCaron bof ton argument est le même qu'utilisent les borg euh les boites d'IA, les gafam (et on va éviter le point godwin même s'il me démange) « You will be assimilated. Resistance is futile. »

@TurboTrain @claudex @jcbuttier @BertrandCaron

Tu m'inventes des arguments?

Non, mon argument est que les dégâts d'une absence de préservation seront bien plus grands qu'un usage marginal de contenu par une IA. Principalement car l'IA n'est pas inéluctable à la différence de la disparition de contenu non préservé et archivé.

Ce que je critique, c'est le fait que ta résistance (sous cette forme) risque de faire plus de dégâts que de bien.

@TurboTrain @claudex @jcbuttier @BertrandCaron

C'est frustrant sûrement mais les actions qu'on peut faire à titre personnel, à part voter, sont souvent plus négative qu'autre choses. Car si au final, les scrappeurs IA trouvent un moyen, tu n'auras qu'impacter la préservation sans autre effet. Ce serait le plus triste.

@TurboTrain @claudex @jcbuttier @BertrandCaron bonjour, voila un poste de l'EFF qui explique en quoi c'est ine mauvaise idée https://mastodon.social/@eff/116241196892153156
@SRAZKVT @BertrandCaron peut-être que je rates un truc, mais le seul argument valable que j'ai vu est « on perd l'historique, qui est utilisé par plein de gens ». Je comprends leur point de vue, mais ce que font les boites d'IA à l'humanité est bien pire que perdre l'historique du web ! Alors si l'internetarchive aide les boites d'IA (en ne les bloquant pas), il est de mon devoir de bloquer l'internetarchive, c'est aussi simple que ça.
@TurboTrain garder l'historique aura un bien plus grand impact pour les autres humains que l'empecher aura pour les ia (ils sont pas à un site prêt)

@SRAZKVT @TurboTrain

Oui, l'IA peut disparaître si elle n'est pas rentable mais on ne récupère pas un patrimoine disparu.