« Langue de Molière », « langue de Racine » (https://mastodon.online/@f_moncomble/114575877138524904)… et pourquoi pas « langue de Jul » ?

Ça vous parait insensé ? Figurez-vous qu’on a fait une petite expérience, 20 minutes montre en main…

#linguistique @tract_linguistes
1/7

2/7
On a récupéré les paroles de ses chansons (pas loin de 1500)…
3/7
On les a importées dans TXM…
4/7
On les a passées dans le script qui calcule le ratio formes/tokens…
5/7
Et voilà : en termes de diversité lexicale, Jul n’a rien à envier aux dramaturges classiques !
@f_moncomble Intéressant, mais comment les tokens sont-ils ordonnés ? Est-ce que ce sont les textes mis bout à bout, ou bien y a-t-il une randomisation ?
@Armavica @f_moncomble si ça t'intéresse, @Armavica , il y a un bouquin entier de Harald Baayen (2001), le spécialiste de la question, sur la modélisation de ces courbes. Curieusement, c'est un livre qui semble plus pensé pour des mathématiciens que pour des linguistes ^^ , mais il contient de nombreux exemples analogues, notamment tirés de Alice au pays des merveilles. La principale application en linguistique est surtout de comparer la productivité de différents procédés de formation des mots.
@jbouton Merci, ça a l'air d'être un livre qui pourrait me plaire :) Je l'ajoute à la pile ^^' @f_moncomble