1/2
L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.
Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.
2/2

Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper. That’s effectively what’s begun happening online in the last few months. The Internet Archive—the world’s largest digital library—has preserved newspapers since it went online in the mid-1990s....
@TurboTrain @claudex @jcbuttier @BertrandCaron
Et tu contribues au problème de la préservation
@TurboTrain @claudex @jcbuttier @BertrandCaron
Non. Je considère personnellement que la préservation du patrimoine est plus importante que l'ego de ne pas "finir dans une IA"
@TurboTrain @claudex @jcbuttier @BertrandCaron
Oui mais tu contribues à rendre la préservation du patrimoine numérique très compliqué. Et ton impact sur la préservation est bien plus grand que ton impact sur l'IA en refusant.
Et ce qui n'a pas pu être archivé aujourd'hui ne pourra plus l'être à l'avenir.
@Mr_Mick @TurboTrain @claudex @jcbuttier
Je comprends que ça fasse débat. Mais la grosse différence avec Internet Archive, c'est que la collecte par la #BnF est mise à disposition uniquement sur site (le sien et celui d'institutions partenaires en province) sur accréditation. Donc ça réduit son utilité sociale d'autant, mais au moins il n'y a pas de risque que ça soit récupéré par les entreprises d'IA.
@BertrandCaron @TurboTrain @claudex @jcbuttier
Le problème étant que le travail de la BnF n'est pas assez connu. Et donc les administrateurs ne prévoient pas les exceptions nécessaires.
@Mr_Mick @TurboTrain @claudex @jcbuttier
Can't agree more - j'aimerais bien que nos collègues communiquent aussi sur les chouettes projets numériques et pas seulement sur les acquisitions prestigieuses. Je suis sûr qu'il y a ici une commu qui recevrait les réflexions numériques un peu pointues avec beaucoup d'appétit !!
@BertrandCaron @TurboTrain @claudex @jcbuttier
Peut-être proposer un guide pour aider les administrateurs à ce sujet
@TurboTrain @claudex @jcbuttier @BertrandCaron
Tu m'inventes des arguments?
Non, mon argument est que les dégâts d'une absence de préservation seront bien plus grands qu'un usage marginal de contenu par une IA. Principalement car l'IA n'est pas inéluctable à la différence de la disparition de contenu non préservé et archivé.
Ce que je critique, c'est le fait que ta résistance (sous cette forme) risque de faire plus de dégâts que de bien.
@TurboTrain @claudex @jcbuttier @BertrandCaron
C'est frustrant sûrement mais les actions qu'on peut faire à titre personnel, à part voter, sont souvent plus négative qu'autre choses. Car si au final, les scrappeurs IA trouvent un moyen, tu n'auras qu'impacter la préservation sans autre effet. Ce serait le plus triste.
Oui, l'IA peut disparaître si elle n'est pas rentable mais on ne récupère pas un patrimoine disparu.
Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?
@BertrandCaron @tuxicoman Y'a genre 15 ans je bossais pour une filiale d'un très grand groupe d'analytics, section "réputation publique", et on faisait exactement ça : "aspirer" des informations issues de sites (news, blogs, forums, etc.).
Déjà à l'époque on commençait à avoir des restrictions...
Très honnêtement, je vois mal une solution "fiable" apparaître.
C'est exactement comme les spams : si on restreint trop, on rate des choses, si pas assez, on est surchargés :(
@BertrandCaron @tuxicoman En gros : spawn un navigateur quelconque (firefox, chrome...) avec le WebDriver, et le contrôler avec des scripts pour naviguer sur certains sites. Lorsqu'une restriction est rencontrée (type "captcha" ou autre), faire une alerte pour essayer de voir si un humain peut le remplir, ou essayer d'utiliser un autre User-Agent, ou une autre adresse IP, bref, tenter d'autres choses.
Dans tous les cas, ça rend le travail beaucoup plus difficile :(
@BertrandCaron @tuxicoman L'autre solution serait "une participation citoyenne" : idem que pour les wordpress, drupal et autres, fournir un outil qui va faire l'inverse : fournir à la BnF les données directement, et donc il serait à la charge des hébergeurs d'installer ces outils et d'activer une exécution régulière de ceux-ci pour donner les infos à la BnF. Mais encore une fois, c'est "détourner le problème".
Cela dit : mieux vaut plein de solutions pas ouf plutôt qu'une seule inefficace :(
Quid d'organiser un archivage contributif avec l'aide d'internautes en chair et en os ?
Avec needle.social on s'efforce de concevoir un réseau "par les internautes pour les internautes". Chacun‧e indexe les pages (mais aussi livres, films, musiques) qui comptent vraiment à ses yeux.
Nous ne prenons que le lien. Mais dans une démarche d'archivage encadré, la page pourrait être scrappée et parsée via l'internaute au moyen d'une extension de navigateur.
On résoudrait le problème de sauvegarde tout en ciblant les contenus les plus pertinents au profit de l'intelligence collective... Puisque les gens pourraient de croiser a passage.
@lutindiscret Je ne connaissais pas. Ma partie c'est plutôt les usages et la conception de dispositifs d'information et de communication.
Ce pourrait être enrichissant de réfléchir à tout ça à partir des besoins concrets de la BnF. Avoir des gens compétents en sécurité ou en crypto serait sans doute un plus.
Je suis certain qu'on doit pouvoir mettre en place des garde-fou ou des moyens de réagir à des injections malveillantes. Sinon, autant jeter le web : lui non plus n'est pas à l'abri de l'injection de contenus malveillants.
Si le robot agent de la bnf est clairement identifiable, on devrait pouvoir le laisser passer !
@archeenerd @BertrandCaron La deuxième chose serait de respecter le fichier robots.txt et en particulier la règle crawl-delay (qui autorise par exemple pas plus d'une requête toutes les 30 secondes). Mais ceci n'est pas vraiment standardisé, et implémenté seulement par quelques robots.
Là aussi à chacun de décider quelles sont les limites, mais ça ne peut fonctionner que si les robots s'identifient, pas s'ils se font passer pour des utilisateurs "normaux" humains
@BertrandCaron À tout juste la moitié du mois… ça craint.
J'espère qu'ils trouveront un accord. Mais effectivement, la problématique de moissonage de données n'est probablement pas simple à traiter, surtout en limitant les couts.
@mab c'est clair...
C'est étonnant, j'ai fait exactement le même pouet à un an de distance. Il se passe quoi en mars ???
Les adeptes de l'abo #BnF pour la presse : vous êtes des gourmand·e·s et avez consommé la totalité des articles par mois de notre abonnement à Europresse. Comme le mois passé. Donc c'est diète jusqu'à début avril. Réflexion en cours pour savoir comment on gère cet engouement. (Je fais comme si j'étais acteur là-dedans mais je ne fais que relayer une info.)
@BertrandCaron Alors pour ma part c'est le moment de renouvellement de mon abo BnF !
Mais ma conso EuroPresse se limite à un ou deux articles par semaine en moyenne 🙃
