« Langue de Molière », « langue de Racine » (https://mastodon.online/@f_moncomble/114575877138524904)… et pourquoi pas « langue de Jul » ?

Ça vous parait insensé ? Figurez-vous qu’on a fait une petite expérience, 20 minutes montre en main…

#linguistique @tract_linguistes
1/7

2/7
On a récupéré les paroles de ses chansons (pas loin de 1500)…
3/7
On les a importées dans TXM…
4/7
On les a passées dans le script qui calcule le ratio formes/tokens…
5/7
Et voilà : en termes de diversité lexicale, Jul n’a rien à envier aux dramaturges classiques !
@f_moncomble Intéressant, mais comment les tokens sont-ils ordonnés ? Est-ce que ce sont les textes mis bout à bout, ou bien y a-t-il une randomisation ?
@Armavica @f_moncomble en principe on randomise. On peut même faire plusieurs échabtillonnages successifs, selon le nombre de paliers qu'on fait.
@jbouton @Armavica @tract_linguistes
Évidemment ça n’a aucune prétention à être absolument rigoureux scientifiquement !
Cela dit sur du langage naturel la distribution est en principe suffisamment aléatoire, et si par hasard un texte avait une diversité lexicale nettement différente des autres ça se manifesterait par une bosse ou un creux sur la courbe, ce qui n’est pas le cas ici.
@f_moncomble @Armavica @tract_linguistes c'est sans doute à ça qu'on doit les petits décrochement ici ou là dans la courbe rouge par exemple !
@jbouton @f_moncomble @tract_linguistes Super, merci à vous deux pour les explications !