Nouvel effet secondaire pervers du pillage massif du web par les entreprises d'IA (oui parce que je pense que vous n'étiez pas assez en colère déjà). Une de mes collègues en charge du dépôt légal du web à la #BnF nous signale que, face à cette menace, les sites se barricadent de plus en plus. Résultat : les robots de la BnF se retrouvent le bec dans l'eau. Les collectes sont massivement en échec.
1/2

L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.

Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.

2/2

@BertrandCaron

Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?

Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.

Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.

On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.

@julienfalgas est-ce que tu connais #zkTLS ? La limite de la solution que tu proposes est qu'une capture façon scrapping ne peut pas être authentifié et on risque la compromission de l'archive par des injections malveillantes (cf la récente affaire du sute d'archive dont wikipédia a supprimé les liens)

@lutindiscret Je ne connaissais pas. Ma partie c'est plutôt les usages et la conception de dispositifs d'information et de communication.

Ce pourrait être enrichissant de réfléchir à tout ça à partir des besoins concrets de la BnF. Avoir des gens compétents en sécurité ou en crypto serait sans doute un plus.

Je suis certain qu'on doit pouvoir mettre en place des garde-fou ou des moyens de réagir à des injections malveillantes. Sinon, autant jeter le web : lui non plus n'est pas à l'abri de l'injection de contenus malveillants.