Parece que la Biblioteca Nacional de España tiene un proyecto por el que pretenden crear un archivo de la web española.
https://www.bne.es/es/colecciones/archivo-web-espanola/aviso-webmasters

Ahí indican que usan #Heritrix , creado por Internet Archive. Al buscar más información sale http://crawler.archive.org/ (sí, una página sin https sino http), y al comienzo pone en grande "Obsolete"
For latest information see https://webarchive.jira.com/wiki/display/Heritrix
Y pinchas ahí y te fuerzan a hacer login.
Vaya mierda de documentación si te obligan a hacer login

Archivo de la web española: aviso para webmasters

Esta página está siendo recolectada automáticamente por la Biblioteca Nacional de España, en virtud del Real Decreto 635/205, de 10 de julio, por el que se regula el depósito legal de las publicaciones en línea, para preservar todos aquellos contenidos que son objeto de depósito legal, tal y como se explicita en el artículo 3 del mencionado real decreto.

Biblioteca Nacional de España

What are your favorite / the best #WebCrawlers for broad / #WebScale #crawling?

I've built a list but am looking for anything I missed: https://github.com/davidshq/awesome-search-engines/blob/main/WebCrawlers.md

Main options I've found include #Apache #Nutch, #StormCrawler, #Scrapy, #Norconex, #PulsarR, #Heritrix, and #sparkler

#question #search #SearchEngines

awesome-search-engines/WebCrawlers.md at main · davidshq/awesome-search-engines

You know, an awesome list of search engines. Contribute to davidshq/awesome-search-engines development by creating an account on GitHub.

GitHub
@elan also see #Heritrix and of course #StormCrawler as alternatives to #ApacheNutch