Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
1/2

L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

2/2

@BertrandCaron C'est vraiment dramatique et je constate que de plus en plus de site calculent la vitesse avant de nous laisser entrer. Est-ce qu'Internet Archive et son formidable Wayback Machine rencontre les mêmes difficultés ?
@jcbuttier @BertrandCaron Anubis (un des outils utilisés pour se protéger des bot) autorise par défaut Internet Archive pour éviter ce problème
@claudex @jcbuttier @BertrandCaron empêcher les bots d'IA de lire les contenus mais laisser internetarchive lire… les bots n'ont qu'à lire internetarchive pour arriver à leurs fins ! C'est pour ça que je bloque internetarchive également

@TurboTrain @claudex @jcbuttier @BertrandCaron

Et tu contribues au problème de la préservation

@Mr_Mick @claudex @jcbuttier @BertrandCaron entre ça et aider les boites d'IA, le choix est vite fait

@TurboTrain @claudex @jcbuttier @BertrandCaron

Non. Je considère personnellement que la préservation du patrimoine est plus importante que l'ego de ne pas "finir dans une IA"

@Mr_Mick @claudex @jcbuttier @BertrandCaron qui a dit que refuser de participer à l'IA était pour l'ego ? Pas moi en tout cas. Je t'invite à lire https://lareleveetlapeste.fr/1-300-scientifiques-appellent-au-boycott-de-lia-generative/ pour les raisons principales (et il y en a bien d'autres)
1 300 scientifiques appellent au boycott de l'IA générative

Face au déploiement massif de l’IA générative (IAg), des scientifiques appellent à manifester une « objection de conscience ».

La Relève et La Peste

@TurboTrain @claudex @jcbuttier @BertrandCaron

Oui mais tu contribues à rendre la préservation du patrimoine numérique très compliqué. Et ton impact sur la préservation est bien plus grand que ton impact sur l'IA en refusant.

Et ce qui n'a pas pu être archivé aujourd'hui ne pourra plus l'être à l'avenir.

@Mr_Mick @TurboTrain @claudex @jcbuttier

Je comprends que ça fasse débat. Mais la grosse différence avec Internet Archive, c'est que la collecte par la #BnF est mise à disposition uniquement sur site (le sien et celui d'institutions partenaires en province) sur accréditation. Donc ça réduit son utilité sociale d'autant, mais au moins il n'y a pas de risque que ça soit récupéré par les entreprises d'IA.

@BertrandCaron @TurboTrain @claudex @jcbuttier

Le problème étant que le travail de la BnF n'est pas assez connu. Et donc les administrateurs ne prévoient pas les exceptions nécessaires.

@Mr_Mick @TurboTrain @claudex @jcbuttier

Can't agree more - j'aimerais bien que nos collègues communiquent aussi sur les chouettes projets numériques et pas seulement sur les acquisitions prestigieuses. Je suis sûr qu'il y a ici une commu qui recevrait les réflexions numériques un peu pointues avec beaucoup d'appétit !!