1/2
L'effort de préservation du web français, que l'institution mène depuis environ 2010 (avec des collections qui remontent jusqu'en 1996) est en péril.
Seule solution que nos collègues envisagent jusqu'ici : contacter individuellement les producteurs pour leur expliquer la démarche et leur demander de lever les barrières. Autant vous dire que ça ne va pas marcher.
2/2
Il n'y avait pas de soucis avec Facebook, LinkedIn, et autre plage privée ou les gens publient leur contenu?
@BertrandCaron @tuxicoman Y'a genre 15 ans je bossais pour une filiale d'un très grand groupe d'analytics, section "réputation publique", et on faisait exactement ça : "aspirer" des informations issues de sites (news, blogs, forums, etc.).
Déjà à l'époque on commençait à avoir des restrictions...
Très honnêtement, je vois mal une solution "fiable" apparaître.
C'est exactement comme les spams : si on restreint trop, on rate des choses, si pas assez, on est surchargés :(
@BertrandCaron @tuxicoman En gros : spawn un navigateur quelconque (firefox, chrome...) avec le WebDriver, et le contrôler avec des scripts pour naviguer sur certains sites. Lorsqu'une restriction est rencontrée (type "captcha" ou autre), faire une alerte pour essayer de voir si un humain peut le remplir, ou essayer d'utiliser un autre User-Agent, ou une autre adresse IP, bref, tenter d'autres choses.
Dans tous les cas, ça rend le travail beaucoup plus difficile :(
@BertrandCaron @tuxicoman L'autre solution serait "une participation citoyenne" : idem que pour les wordpress, drupal et autres, fournir un outil qui va faire l'inverse : fournir à la BnF les données directement, et donc il serait à la charge des hébergeurs d'installer ces outils et d'activer une exécution régulière de ceux-ci pour donner les infos à la BnF. Mais encore une fois, c'est "détourner le problème".
Cela dit : mieux vaut plein de solutions pas ouf plutôt qu'une seule inefficace :(