New: ChatGPT continues to pollute spaces where people go to acquire knowledge. ChatGPT generated books are being indexed in Google Books, and could impact Google Ngram viewer, an important tool used by researchers to track language use throughout history https://www.404media.co/google-books-is-indexing-ai-generated-garbage/
Google Books Is Indexing AI-Generated Garbage

Google said it will continue to evaluate its approach “as the world of book publishing evolves.”

404 Media
@josephcox depending on language subcorpus, the Google Books ngrams are already tainted/biased by all kinds of things.
@fotis_jannidis did some digging for the German corpus, cf. https://zenodo.org/doi/10.5281/zenodo.7715377 (presented at #DHd2023). His conclusion is that the German ngrams are corrupted at least since 2000.
Korpuszusammensetzung und Verlässlichkeit des deutschsprachigen Google Ngram-Viewers

Die Daten des Google-Ngramm-Korpus sowie deren Visualisierung durch den Viewer stellen eine der wichtigsten 'Big Data'-Anwendungen im Bereich der Kultur dar. Trotz der Warnungen vor den Einschränkungen dieser Daten nicht zuletzt aus der DH Community wird die Anwendung oft genutzt, auch weil die meisten Ergebnisse Intuitionen über kulturelle Prozesse bestätigen. Der vorliegende Beitrag zeigt, dass das deutsche Korpus von 2019 jenseits der allgemein beschriebenen Probleme durch die Hinzufügung spezifischer Datensets so korrumpiert ist, dass es spätestens nach dem Jahr 2000 keine brauchbaren Informationen liefert. Der Vortrag beschreibt wie diese Verzerrungen aussehen und analysiert auch in zwei Fällen, um welche verzerrenden Datensets es sich wahrscheinlich handelt: Retrodigitalisierungen, die durch die Verlage falsch datiert sind, und die digitalen Publikationen eines sehr umsatzstarken 'vanity publishers'. Allerdings können auch diese beiden Faktoren noch nicht alle Beobachtungen erklären. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.

Zenodo