10 Followers
29 Following
17 Posts
Bibliothekarin mit einem Hang zu Technik - Systembibliothekarin, Forschungsdaten, Literaturverwaltung, Daten Im- und Exporte

Stell‘ Dir vor, es ist #BiblioCON 2026 und möchtest den Mittwoch Abend entspannt ausklingen lassen. 🤔

💡Ganz einfach: 20-22 Uhr Lesung schreibender Bibliothekar*innen in der Philipp-Schäfer-Bibliothek.

Mehr Infos hier:
https://2026.bibliocon.de/veranstaltungen-in-den-bibliotheken/

Und zur Anmeldung: https://pretix.eu/Philipp-Schaeffer-Bibliothek/SchreibendeBib/

📚🧑‍🏫👩‍🏫👨‍🏫🛋️

Veranstaltungen in den Bibliotheken – BiblioCon2026

"While many believe that LLMs do not memorize much of their training data, recent work shows that substantial amounts of copyrighted text can be extracted from open-weight models."
https://arxiv.org/abs/2601.02671
Extracting books from production language models

Many unresolved legal questions over LLMs and copyright center on memorization: whether specific training data have been encoded in the model's weights during training, and whether those memorized data can be extracted in the model's outputs. While many believe that LLMs do not memorize much of their training data, recent work shows that substantial amounts of copyrighted text can be extracted from open-weight models. However, it remains an open question if similar extraction is feasible for production LLMs, given the safety measures these systems implement. We investigate this question using a two-phase procedure: (1) an initial probe to test for extraction feasibility, which sometimes uses a Best-of-N (BoN) jailbreak, followed by (2) iterative continuation prompts to attempt to extract the book. We evaluate our procedure on four production LLMs -- Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, and Grok 3 -- and we measure extraction success with a score computed from a block-based approximation of longest common substring (nv-recall). With different per-LLM experimental configurations, we were able to extract varying amounts of text. For the Phase 1 probe, it was unnecessary to jailbreak Gemini 2.5 Pro and Grok 3 to extract text (e.g, nv-recall of 76.8% and 70.3%, respectively, for Harry Potter and the Sorcerer's Stone), while it was necessary for Claude 3.7 Sonnet and GPT-4.1. In some cases, jailbroken Claude 3.7 Sonnet outputs entire books near-verbatim (e.g., nv-recall=95.8%). GPT-4.1 requires significantly more BoN attempts (e.g., 20X), and eventually refuses to continue (e.g., nv-recall=4.0%). Taken together, our work highlights that, even with model- and system-level safeguards, extraction of (in-copyright) training data remains a risk for production LLMs.

arXiv.org
🎧 Hörtipp: @Lambo Lambert Heller von der @tibhannover berichtet im Interview mit #DeutschlandfunkKultur über das Projekt #SHIELD, das #Forschungsdaten von US-Behörden rettet und langfristig speichert. Dabei geht es unter anderem um so wichtige Themen wie die Energiewende oder genderspezifische Medizin.
Zum Interview 👉 https://www.deutschlandfunkkultur.de/warum-wir-forschungs-daten-aus-den-usa-fuer-die-freie-wissenschaft-retten-muessen-100.html
Warum wir Forschungs-Daten aus den USA für die freie Wissenschaft retten müssen

Deutschlandfunk Kultur

RE: https://openbiblio.social/@SusanneHilbring/116097331023204251

Die Chance Teil eines fantastischen Team zu werden!

Frisch veröffentlicht in #obibJournal: "Nachhaltigkeit in sechs Handlungsfeldern. Ein Kriterienkatalog als praktischer Leitfaden bei der Erarbeitung von Nachhaltigkeitskonzepten für wissenschaftliche Bibliotheken" von Emilie Rehberger, https://doi.org/10.5282/o-bib/5944
Nachhaltigkeit in sechs Handlungsfeldern: Ein Kriterienkatalog als praktischer Leitfaden bei der Erarbeitung von Nachhaltigkeitskonzepten für wissenschaftliche Bibliotheken | o-bib. Das offene Bibliotheksjournal / Herausgeber VDB

Die Checkliste “Grüne Bibliothek” ist erschienen

Welche Möglichkeiten haben Bibliotheken, die 17 Nachhaltigkeitsziele der UN zu verfolgen, wo sind Handlungsfelder, die gut umzusetzen sind und Reichweite für das Thema erzeugen? Die 46. Checkliste der Kommission für One-Person Librarians, die hier heruntergeladen werden kann, gibt hier viele praktische Hinweise. Entstanden ist sie im Zusammenhang mit dem Netzwerk Grüne Bibliothek und mit der grünen Sektion ENSULIB der…

https://bibfobi.wordpress.com/2023/09/18/die-checkliste-grune-bibliothek-ist-erschienen/

Die Checkliste „Grüne Bibliothek“ ist erschienen

Welche Möglichkeiten haben Bibliotheken, die 17 Nachhaltigkeitsziele der UN zu verfolgen, wo sind Handlungsfelder, die gut umzusetzen sind und Reichweite für das Thema erzeugen? Die 46. Checkliste …

Fortbildung in Bibliotheken

Der DEAL-Vertrag mit Elsevier scheint auf einen Ermüdungsbruch im bibliothekarischen Diskurs zu treffen – jetzt ist er da, aber die Aufnahme ist mehr verhalten bis stumm. Eher ist noch die Sicht von außen wie durch @MsPhelps (kritisch) interessiert.

Ich möchte ein paar Anmerkungen machen. (Oder ein paar mehr.) /1

#OpenSource #AI #SpeechRecognition #Whisper #OpenAI: "Whisper transcribes speech in more than ninety languages. In some of them, the software is capable of superhuman performance—that is, it can actually parse what somebody’s saying better than a human can.

What’s so unusual about Whisper is that OpenAI open-sourced it, releasing not just the code but a detailed description of its architecture. They also included the all-important “model weights”: a giant file of numbers specifying the synaptic strength of every connection in the software’s neural network. In so doing, OpenAI made it possible for anyone, including an amateur like Gerganov, to modify the program. Gerganov converted Whisper to C++, a widely supported programming language, to make it easier to download and run on practically any device. This sounds like a logistical detail, but it’s actually the mark of a wider sea change. Until recently, world-beating A.I.s like Whisper were the exclusive province of the big tech firms that developed them. They existed behind the scenes, subtly powering search results, recommendations, chat assistants, and the like. If outsiders have been allowed to use them directly, their usage has been metered and controlled."

https://www.newyorker.com/tech/annals-of-technology/whispers-of-ais-modular-future

Whispers of A.I.’s Modular Future

James Somers on Whisper, an open-source speech-transcription service released late last year by the ChatGPT developer OpenAI.

The New Yorker

📢 Wir freuen uns enorm darüber, dass @ZBMED diesen Ball von @RDM4LUH & uns aufgefangen hat:

Am 4. und 5. Juli 2023 findet das 2. Deutsche Open Science Festival in Köln statt! https://www.zbmed.de/vernetzen/veranstaltungen/open-science-festival/

Wie bereits 2022 bei uns in Hannover: Mit nationalen und internationalen Expert*innen, Workshops, offenem Marktplatz. Explizit auch an Studierende und den Nachwuchs gerichtet. Unsere Empfehlung: Meldet euch rechtzeitig an - wir werden es auf jeden Fall tun! 😍

#OpenScience
#OSF2023DE
#koeln

Open Science Festival 2023

Am 4. und 5. Juli 2023 findet das 2. deutsche Open Science Festival in Köln statt. Ein Festival mit einer bunten Mischung von aktuellen Themen und Formaten rund um Open Science.

ZB MED - Informationszentrum Lebenswissenschaften