Dat large language models (LLMs) zijn getraind op auteursrechtelijk beschermd materiaal (soms zelfs verkregen uit zogenaamde shadow libraries) staat inmiddels wel vast. Als ze voor de rechter worden gedaagd, bestrijden de bedrijven achter de LLMs dit meestal niet, maar ze beroepen zich op het 'transformatieve gebruik' uit de fair use-bepaling in het Amerikaanse auteursrecht. Het argument komt neer op: a. we hebben dit materiaal alleen gebruikt voor trainingsdoeleinden zodat ons model nieuwe en originele content kan produceren, en b. we hebben filters geplaatst om te voorkomen dat gebruikers iets kunnen laten genereren 'in de stijl van' een bepaalde maker, laat staan letterlijke tekst.

Dit onderzoek haalt die claims onderuit. Na finetuning (laat eerst een samenvatting genereren van een korte passage uit een origineel werk, en laat een LLM van deze samenvatting vervolgens een langere versie 'schrijven') blijken drie LLMs (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1) ondanks die filters grote lappen letterlijke tekst uit oorspronkelijke werken uit te spuwen, tot meer dan 460 woorden lang. Bijzonder is verder dat als die finetuning is gebaseerd op het werk van een specifieke auteur, ook het werk van andere, ongerelateerde auteurs bijna woordelijk wordt gereproduceerd. Bovendien laat het onderzoek zien dat wat de modellen reproduceren wel gebaseerd moet zijn op het gehele werk (niet op stukken eruit die elders op internet gevonden kunnen zijn) en het dus aannemelijk is dat voor het trainen gepirateerde teksten zijn gebruikt.

Waar Amerikaanse rechters in recente uitspraken zijn meegegaan in de argumenten van de bedrijven achter de LLMs, suggereren deze uitkomsten dat ze tot andere uitspraken zouden zijn gekomen als ze dit hadden geweten. En het argument dat de modellen in andere landen mogen worden gebruikt zolang de training maar in de VS (onder 'fair use') heeft plaatsgevonden, gaat niet op wanneer de teksten die LLMs genereren bijna woordelijke reproducties zijn van beschermde werken - en dus geen 'transformaties'.

#auteursrecht #ai #llm #gpt #gemini #deepseek #copyright #fairuse

link naar artikel (pre-print, Arxiv): https://lnkd.in/eSiHFiwF

LinkedIn

This link will take you to a page that’s not on LinkedIn

Blocking The Internet Archive Won’t Stop AI, But It Will Erase The Web’s Historical Record

Imagine a newspaper publisher announcing it will no longer allow libraries to keep copies of its paper.  That’s effectively what’s begun happening online in the last few months. The Internet A…

Techdirt

@yoasif @rootwyrm @quarknova Scraping open content is going to happen. What we do about it needs to be much more robust, technically and legally.
a) AI scraping is not fair use bc of vast profit made by AI Co's, and amount of content scraped/copied.
b) fair use is a US construct, interpreted differently elsewhere. EFF know this. (https://www.eff.org/deeplinks/2016/02/murky-waters-international-copyright-law)
c) to me, EFF decision seems contrary to their own standards.
d) AI scraping goes against most CC licences.

#AI #fairuse #academia #copyright

The Hypocrisy at the Heart of the AI Industry

Tech companies believe in intellectual property, but not yours.

The Atlantic
The Jehovah’s Witnesses Are Back Abusing Copyright Law To Unmask Their Critics. Again.

EFF announced last week that it has stepped in to defend yet another anonymous Jehovah’s Witness critic from having their identity exposed through bogus copyright claims. The Watch Tower Bibl…

Techdirt
Explore a raw CNN broadcast clip—great for media analysis, classroom use, or anyone curious about how news is framed. Short fair-use footage ideal for study and discussion. Dive into the source on PeerTube and learn from the clip! #Education #MediaStudies #Broadcast #CNN #FairUse #Journalism #News #PeerTube #English
https://video.osgeo.org/videos/watch/1f979013-dafc-4407-9a69-beb6e456d8fa
VTS_02_1

PeerTube
Des universitaires américains montrent les limites du droit d'auteur en montage avec des extraits Disney — résultat étonnant et pertinent pour comprendre le fair use et les libertés numériques. À voir ! #French #copyright #fairuse #Disney #CreativeCommons #PeerTube #Framasoft
https://tube.alphonso.fr/videos/watch/d35a5737-4edf-4008-b247-63660b0d5d6e
Eric Faden - A Fair(y) Use Tale

PeerTube
EFF Launches New Fight to Free the Law

EFF is filing against the Consumer Product Safety Council (CPSC) to ensure that the public has full access to the laws that govern us.Our client Public.Resource.Org (Public Resource), a tiny non-profit founded by open records advocate Carl Malamud, has a mission that’s both simple and powerful: to...

Electronic Frontier Foundation

These machines were incredible, on 32KB of ram: all the things that could be one.
Disclaimer: This model is hard to find on the second hand market, so hopefully #Sanyo won't be bothered with me using the ROM. #fairuse

#retrocomputing #MSX2 #MSX #memory