Egon Willigh☮gen 🟥

@egonw
944 Followers
457 Following
8.8K Posts

Chem/Bio/Stats/SemWeb, the CDK, WikiPathways, TGX @ Maastricht University (these posts are personal) (he/him). Here particularly #opensource #openstandards and #opendata

For my research (field), follow @egonw

Webhttps://egonw.github.io/
Bloghttps://chem-bla-ics.linkedchemistry.info/
ORCIDhttps://orcid.org/0000-0001-7542-0286
OWL:SAMEAShttps://social.edu.nl/@egonw

It's so scary and painful to watch the speed and enthusiasm with which the bastion of software freedom that we built the past 40 years is being ripped apart by rust-infatuated drones doing Big Tech's biddings. Remove Copyleft protection at all cost so that we can steal all your work for our proprietary evils.

"So this is how liberty dies...with thunderous applause" -- Padmé Amidala

#FreeSoftware #GNU #rust

new blog: "Using compact identifiers in project reports" https://doi.org/10.59350/re9j2-hk972

"This document describes how you can improve the FAIR-ness of your project report by using compact identifiers. Of course, it can be applied to any other document too, and has been used in, for example, journal articles and online documentation already." https://chem-bla-ics.linkedchemistry.info/2026/03/29/using-compact-identifiers-in-project-reports.html

#fair #fair4ChemNL #identifier #cito

Israel is in Libanon letterlijk exact het zelfde aan het doen als wat ze in Gaza gedaan hebben. Gericht journalisten en niet-militaire infrastructuur aanvallen. En Westerse politici vinden het allemaal helemaal prima, blijkbaar. Wanneer worden we een keer wakker hier?

https://www.nytimes.com/2026/03/28/world/middleeast/lebanon-journalists-killed-israeli-strike.html

Israeli Strike Kills 3 Journalists in Southern Lebanon, Officials Say

Israel accused one of the reporters of being a Hezbollah operative. Lebanon’s president said they were journalists and condemned the killings.

The New York Times

I need 5 co-signatures for my UK petition before it will be reviewed and published:

"Ban private jets"

https://petition.parliament.uk/petitions/765785/sponsors/new?token=MEGrPxmu7VQ3m98ESED8

Edit: This petition now has 20 signatures so it won't take any more until they've approved it at review. Stay tuned!

#petition #UK #environment #ClimateChange

Some time ago, I started migrating and archiving posts, from a proprietary platform into a git/markdown combo, archived by @rogue_scholar

I now finished migrating the first 5 calendar years, 2005-2009! https://egonw.github.io/blog/

Next up is 2010, which is with 160 posts, the busiest blogging year for me.

chem-bla-ics

Chemblaics (pronounced chem-bla-ics) is the science that uses open science and computers to solve problems in chemistry, biochemistry and related fields.

chem-bla-ics

this week I learned that there is a SPARQL endpoint with the @OpenAlex content: https://semopenalex.org/resource/semopenalex:About

#sparql

metaphactory

📣 Natural Product Occurrence of the Day

🧪 pinselin [https://www.wikidata.org/wiki/Q27136722] is a molecule
found in a 🌿 plant, Senna occidentalis [https://www.wikidata.org/wiki/Q2720961]
📚 according to: [https://www.wikidata.org/wiki/Q104846902]

✏️ This occurrence is available for curation on Wikidata [https://www.wikidata.org/wiki/Q27136722#P703]. If you spot an error, feel free to improve it!

#DailyNP #OpenScience

Ik nam een kijkje op de website van #ProgressiefNederland.

Hoe progressief is dit nu eigenlijk?

Een deelknop voor #Mastodon ontbreekt. Wel vier deelknoppen voor #bigtech-platforms.

Echt progressieve politieke partijen zijn te vinden op de #Fediverse:

- @PartijvoordeDieren
- @Piratenpartij
- @BIJ1

#PracticeWhatYouPreach

Ik help graag.

#GroenLinks #PvdA #GroenLinksPvdA #PubliekeWaarden

Dat large language models (LLMs) zijn getraind op auteursrechtelijk beschermd materiaal (soms zelfs verkregen uit zogenaamde shadow libraries) staat inmiddels wel vast. Als ze voor de rechter worden gedaagd, bestrijden de bedrijven achter de LLMs dit meestal niet, maar ze beroepen zich op het 'transformatieve gebruik' uit de fair use-bepaling in het Amerikaanse auteursrecht. Het argument komt neer op: a. we hebben dit materiaal alleen gebruikt voor trainingsdoeleinden zodat ons model nieuwe en originele content kan produceren, en b. we hebben filters geplaatst om te voorkomen dat gebruikers iets kunnen laten genereren 'in de stijl van' een bepaalde maker, laat staan letterlijke tekst.

Dit onderzoek haalt die claims onderuit. Na finetuning (laat eerst een samenvatting genereren van een korte passage uit een origineel werk, en laat een LLM van deze samenvatting vervolgens een langere versie 'schrijven') blijken drie LLMs (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1) ondanks die filters grote lappen letterlijke tekst uit oorspronkelijke werken uit te spuwen, tot meer dan 460 woorden lang. Bijzonder is verder dat als die finetuning is gebaseerd op het werk van een specifieke auteur, ook het werk van andere, ongerelateerde auteurs bijna woordelijk wordt gereproduceerd. Bovendien laat het onderzoek zien dat wat de modellen reproduceren wel gebaseerd moet zijn op het gehele werk (niet op stukken eruit die elders op internet gevonden kunnen zijn) en het dus aannemelijk is dat voor het trainen gepirateerde teksten zijn gebruikt.

Waar Amerikaanse rechters in recente uitspraken zijn meegegaan in de argumenten van de bedrijven achter de LLMs, suggereren deze uitkomsten dat ze tot andere uitspraken zouden zijn gekomen als ze dit hadden geweten. En het argument dat de modellen in andere landen mogen worden gebruikt zolang de training maar in de VS (onder 'fair use') heeft plaatsgevonden, gaat niet op wanneer de teksten die LLMs genereren bijna woordelijke reproducties zijn van beschermde werken - en dus geen 'transformaties'.

#auteursrecht #ai #llm #gpt #gemini #deepseek #copyright #fairuse

link naar artikel (pre-print, Arxiv): https://lnkd.in/eSiHFiwF

LinkedIn

This link will take you to a page that’s not on LinkedIn