Zur Frage (5/x): Wie erhalte ich Volltexte in einer Datei? Wir nutzen mal die #goobi_viewer-API, lassen uns die TXT-Dateien geben und packen alles in eine Datei:
$> ppn=1675717745 && curl -v -o $ppn.xml https://scripta.bbf.dipf.de/viewer/sourcefile?id=$ppn && mkdir -p txt && cd txt && (xmllint --xpath "//*[local-name()='FLocat']/@*[local-name()='href'][contains(.,'alto')]" ../$ppn.xml | cut -c86-97 | xargs -I % curl -v -O "https://scripta.bbf.dipf.de/viewer/api/v1/records/"$ppn"/files/plaintext/"%) && cat *.xml >> ../allOne.txt
#Maltes_API_Spielereien

Unter weiter Anleitung zur Frage (3/x): zur Frage: Wie erhalte ich Volltexte von allen Seiten in einer Datei?

Wir nehmen den Befehl von gestern und leiten das Ergebnis - die URLs - über eine weitere pipe an curl weiter:

xmllint --xpath "//*[local-name()='FLocat']/@*[local-name()='href'][contains(.,'alto')]" METS.xml | cut -c14-97 | xargs -I % curl -v -O %

Jetzt liegen alle ALTO-Dateien auf deinem Rechner!

#mets #goobi_viewer #goobi #pipe #bash #Maltes_API_Spielereien

(2/x) zur Frage: Wie erhalte ich Volltexte von allen Seiten in einer Datei?

Wir sind faul und haben die Seiten noch nicht per Hand aus dem #goobi_viewer runtergeladen.

Dreh-undAngelpunkt ist die METS-Datei, denn in dieser, sind verschiedene Varianten der Digitalisate enthalten, z.B. möglicherweise ein #Volltext in #ALTO

$> xmllint --xpath "//*[local-name()='FLocat']/@*[local-name()='href'][contains(.,'alto')]" METS.xml | cut -c14-97

Wir erhalten die URLs.

#Maltes_API_Spielereien

Zur Frage: Wie erhalte ich Volltexte von allen Seiten in einer Datei? (Die lassen sich nämlich nicht über die HTML-Oberfläche eines #goobi_viewer s herunterladen.)

Angenommen, die Texte wurden als Plaintext schon heruntergeladen und liegen in einem Verzeichnis in.

In einem Terminal einfach das eingeben:

$> cat in/*.txt >> PPN_alleseiten.txt

Anleitung (1/x)

Experiment: #frecher_einzeiler , mastodon-Formatierungen

#Maltes_API_Spielereien