Parece que la Biblioteca Nacional de España tiene un proyecto por el que pretenden crear un archivo de la web española.
https://www.bne.es/es/colecciones/archivo-web-espanola/aviso-webmasters
Ahí indican que usan #Heritrix , creado por Internet Archive. Al buscar más información sale http://crawler.archive.org/ (sí, una página sin https sino http), y al comienzo pone en grande "Obsolete"
For latest information see https://webarchive.jira.com/wiki/display/Heritrix
Y pinchas ahí y te fuerzan a hacer login.
Vaya mierda de documentación si te obligan a hacer login
Archivo de la web española: aviso para webmasters
Esta página está siendo recolectada automáticamente por la Biblioteca Nacional de España, en virtud del Real Decreto 635/205, de 10 de julio, por el que se regula el depósito legal de las publicaciones en línea, para preservar todos aquellos contenidos que son objeto de depósito legal, tal y como se explicita en el artículo 3 del mencionado real decreto.