Dat large language models (LLMs) zijn getraind op auteursrechtelijk beschermd materiaal (soms zelfs verkregen uit zogenaamde shadow libraries) staat inmiddels wel vast. Als ze voor de rechter worden gedaagd, bestrijden de bedrijven achter de LLMs dit meestal niet, maar ze beroepen zich op het 'transformatieve gebruik' uit de fair use-bepaling in het Amerikaanse auteursrecht. Het argument komt neer op: a. we hebben dit materiaal alleen gebruikt voor trainingsdoeleinden zodat ons model nieuwe en originele content kan produceren, en b. we hebben filters geplaatst om te voorkomen dat gebruikers iets kunnen laten genereren 'in de stijl van' een bepaalde maker, laat staan letterlijke tekst.
Dit onderzoek haalt die claims onderuit. Na finetuning (laat eerst een samenvatting genereren van een korte passage uit een origineel werk, en laat een LLM van deze samenvatting vervolgens een langere versie 'schrijven') blijken drie LLMs (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1) ondanks die filters grote lappen letterlijke tekst uit oorspronkelijke werken uit te spuwen, tot meer dan 460 woorden lang. Bijzonder is verder dat als die finetuning is gebaseerd op het werk van een specifieke auteur, ook het werk van andere, ongerelateerde auteurs bijna woordelijk wordt gereproduceerd. Bovendien laat het onderzoek zien dat wat de modellen reproduceren wel gebaseerd moet zijn op het gehele werk (niet op stukken eruit die elders op internet gevonden kunnen zijn) en het dus aannemelijk is dat voor het trainen gepirateerde teksten zijn gebruikt.
Waar Amerikaanse rechters in recente uitspraken zijn meegegaan in de argumenten van de bedrijven achter de LLMs, suggereren deze uitkomsten dat ze tot andere uitspraken zouden zijn gekomen als ze dit hadden geweten. En het argument dat de modellen in andere landen mogen worden gebruikt zolang de training maar in de VS (onder 'fair use') heeft plaatsgevonden, gaat niet op wanneer de teksten die LLMs genereren bijna woordelijke reproducties zijn van beschermde werken - en dus geen 'transformaties'.
#auteursrecht #ai #llm #gpt #gemini #deepseek #copyright #fairuse
link naar artikel (pre-print, Arxiv): https://lnkd.in/eSiHFiwF