Stylometrie
Ik vroeg StableDiffusion een illustratie te leveren bij een blogje over stylometrie.
Over stylometrie heb ik weleens eerder geblogd, maar ik heb het thema nooit systematisch behandeld. Het is, zoals de naam eigenlijk al aangeeft, het meten van de stijl van een auteur. Die kan allerlei eigenschappen verraden. Als iemand vaker “gedaan hebben” schrijft dan “hebben gedaan”, is er een redelijke kans dat hij komt uit het oosten van Nederland. De verhouding tussen woorden als ik/mij/me en jij/je/jouw schijnt bij mannen en vrouwen niet dezelfde te zijn.
Vingerafdruk
Veel van dit soort zaken zijn vrijwel onbewust. Ik heb voor mezelf eens vastgesteld hoe vaak ik in mijn boeken een puntkomma gebruikte, en dat leidde tot een geloofwaardige grafiek, waarop je meteen herkende wanneer ik een goede meelezer kreeg die me bewust maakte van dit aspect van mijn schrijfstijl.
Elke schrijver heeft een stijl die zo uniek is als een vingerafdruk. Als je maar genoeg voorbeelden hebt van een oeuvre, is het mogelijk ook andere teksten te identificeren die zo iemand heeft geschreven. Het is hoe Marek van der Jagt werd ontmaskerd als Arnon Grunberg en Robert Galbraith als J.K. Rowling. Los van de literaire toepassingen heeft dit soort onderzoek een forensische kant, zoals de identificatie van de UNA-bomber. En er schijnt eens een vluchteling te zijn geweest die asiel kreeg omdat hij stylometrisch kon bewijzen de auteur te zijn van anonieme artikelen waar de autoriteiten in zijn vaderland niet blij mee waren.
Lutosławski
Een van de eersten die hebben geprobeerd de stijl van een auteur te “vatten”, was de Poolse filosoof Wincenty Lutosławski (1863-1954), die in 1896 aantoonde dat Thrasyllus’ traditionele indeling van de dialogen van Plato niet correspondeerde met de historische volgorde. Een jaar later publiceerde hij The Origin and Growth of Plato’s Logic, waarin hij de conclusies ontsloot voor het Engelstalige publiek.
Lutosławski’s methode was als volgt. Het Grieks kent de woorden ὥσπερ en καθάπερ, die je allebei als “zoals” zou kunnen vertalen, en hij stelde de onderlinge verhouding vast. Ook zijn er de twee werkwoordsvormen die je kunt weergeven als “ze zeiden”, εἶπον en ἔλεγον: opnieuw stelde hij de verhouding vast. Kijkend naar vijfhonderd van dit soort eigenschappen, kon Lutosławski bepalen hoe Plato’s stijl zich in de loop der jaren ontwikkelde en kon hij de volgorde van diens dialogen vaststellen. En dus de ontwikkeling van zijn denken over logica, waar het hem om te doen was.
Je kunt zulke scores natuurlijk ook gebruiken om vast te stellen of een tekst wel behoort tot het corpus van deze of gene auteur. Zo is van twee paragrafen Herodotos vastgesteld dat het inlassingen zijn. Ze wijken te veel af van andere paragrafen.
Woordfrequenties
Lutosławski’s werk was gebaseerd op de verhoudingen tussen taaluitingen. Een heel andere benadering gaat uit van de frequenties waarmee bepaalde woorden voorkomen. Zoiets kan beginnen met een zinslengte. Simon Vestdijk schreef langere zinnen dan Renate Dorrestein. Zelfs een auteur die houdt van variatie en korte zinnen afwisselt met lange, heeft bepaalde voorkeuren. Je kunt ook turven hoe vaak woordjes als δέ voorkomen als derde woord in een zin. Dat soort dingen.
In het verlengde hiervan ligt het gebruik van bepaalde woorden: vermoedelijk het meest herkenbare aspect van iemands taalgebruik. Ruud Lubbers gebruikte nogal eens de uitdrukking “werkende weg”, wat een aanwijzing zou kunnen zijn als nog eens een tekst opduikt van een ongeïdentificeerde Nederlandse premier. Omdat dit zo makkelijk herkenbaar is, is dit ook het eerste wat een vervalser zal doen, dus dit is op zich niet zo’n heel sterke manier – tenzij de stylometrist verschrikkelijk veel woorden onderzoekt en vooral let op halfbewust gebruikte woorden als “toch”, “wel”, “maar”, “nou” of “even”. Uiteraard is dit te combineren met Lutosławski’s aanpak: denk maar aan de verhouding tussen “even”, “effe” en “eventjes”, of de verhouding tussen “nu” en “nou”.
Mede dankzij dit type onderzoek is van een gereconstrueerde versie van het ooit omstreden Testimonium Flavianum vastgesteld dat die correct moet zijn. Veel woorden die heel typisch zijn voor de auteur, Flavius Josephus, kwamen voor in de juiste frequentie. De gereconstrueerde versie was overigens kort, dus het stylometrische argument was er één onder meer.
Naamvallen en verbuigingen
Hoe meer frequenties en verhoudingen je onderzoekt, hoe scherper het beeld wordt, en gelukkig hebben classici – om ons even tot de antieke literatuur te beperken – sinds ongeveer 1990 de beschikking over gedigitaliseerde bestanden. Helaas doet zich hierbij een probleem voor waarvan we bij het bovenstaande nog geen last hadden: in een computer gebruik je een zoekstring, maar woorden komen voor in allerlei vormen, die een mens maar een computer niet herkent. Een computer zal “ik zal” en “jij zult” niet meteen herleiden tot vormen van hetzelfde werkwoord “zullen”. Er is bij computergebruik dus een voorbewerking nodig, die niet makkelijk is.
Je kunt echter van de nood een deugd maken en bijvoorbeeld kijken welk percentage woorden begint met een bepaalde letter, of hoe vaak een woord eindigt op deze of gene letter, of hoe vaak een bepaalde klank voorkomt op de op één na laatste plaats. Dit zijn manieren om in algemene zin – dus zonder te kijken naar welke woorden je precies kijkt – het gebruik van naamvallen en verbuigingen “in een getal te vangen”. Ook dat is immers een aspect van iemands stilistisch handtekening.
Enfin. Ik brei hier een einde aan mijn blogje. Het is zondagavond, ik heb ook andere dingen te doen. Ik noem echter nog even dat dit type onderzoek voor de Historia Augusta belangrijk is geweest (geen zes auteurs maar één auteur) en dat het nog niet zo eenvoudig is gebleken uitspraken te doen over de brieven van de apostel Paulus. Van een deel weten we zeker dat ze authentiek zijn, van andere wordt het in uiteenlopende mate betwijfeld, met nog geen totale consensus. En dat is logisch, want een brief is maar een brief – kort. De verzameling data is niet voldoende groot.
PS
De universiteit van Antwerpen had jaren geleden een online-programma waar je teksten kon invoeren en kon zien wat de computer ervan maakte. Over die versie blogde ik eens. Inmiddels is er een betere versie.
[De oudheidkundige wetenschappen zijn in de eerste plaats wetenschappen. Een overzicht van stukjes over het wetenschappelijk aspect, vindt u daar.]
#ArnonGrunberg #FlaviusJosephus #GriekseTaal #HistoriaAugusta #JKRowling #Plato #stylometrie #TestimoniumFlavianum #Thrasyllus #UNABomber #WincentyLutosławski