Mastodawn

2/7
On a récupéré les paroles de ses chansons (pas loin de 1500)…

3/7
On les a importées dans TXM…

4/7
On les a passées dans le script qui calcule le ratio formes/tokens…

Florent Moncomble

5/7
Et voilà : en termes de diversité lexicale, Jul n’a rien à envier aux dramaturges classiques !

6/7
(On a fait le test aussi avec les lemmes mais, les chansons contenant un certain nombre de mots inconnus du lemmatiseur de TXM, le résultat demanderait à être affiné.)

7/7
Et voilà un clou de plus dans le cercueil du mythe des « 500 mots de vocabulaire des jeunes » (bouh !), qui rejoint celui des « 1000 mots de Racine » (wouah !) au rayon des intox à oublier pour de bon.

Virgile Andreani ⏚4d ago

@f_moncomble Intéressant, mais comment les tokens sont-ils ordonnés ? Est-ce que ce sont les textes mis bout à bout, ou bien y a-t-il une randomisation ?

@Armavica @f_moncomble en principe on randomise. On peut même faire plusieurs échabtillonnages successifs, selon le nombre de paliers qu'on fait.

@jbouton @Armavica @tract_linguistes
Évidemment ça n’a aucune prétention à être absolument rigoureux scientifiquement !
Cela dit sur du langage naturel la distribution est en principe suffisamment aléatoire, et si par hasard un texte avait une diversité lexicale nettement différente des autres ça se manifesterait par une bosse ou un creux sur la courbe, ce qui n’est pas le cas ici.

@f_moncomble @Armavica @tract_linguistes c'est sans doute à ça qu'on doit les petits décrochement ici ou là dans la courbe rouge par exemple !

Virgile Andreani ⏚4d ago

@jbouton @f_moncomble @tract_linguistes Super, merci à vous deux pour les explications !

@Armavica @f_moncomble si ça t'intéresse, @Armavica , il y a un bouquin entier de Harald Baayen (2001), le spécialiste de la question, sur la modélisation de ces courbes. Curieusement, c'est un livre qui semble plus pensé pour des mathématiciens que pour des linguistes ^^ , mais il contient de nombreux exemples analogues, notamment tirés de Alice au pays des merveilles. La principale application en linguistique est surtout de comparer la productivité de différents procédés de formation des mots.

Virgile Andreani ⏚4d ago

@jbouton Merci, ça a l'air d'être un livre qui pourrait me plaire :) Je l'ajoute à la pile ^^' @f_moncomble

@f_moncomble je serais curieux de voir en comparaison un texte "banal" (journalisme, etc), pour qu'on voie bien que la comparaison des courbes de croissance peut avoir un sens !

https://social.sciences.re/@tract_linguistes/114592593439426708

@jbouton @tract_linguistes Ça peut se faire ! En attendant, un autre exemple dans ce pouet :

Linguistes atterrées ☑️ (@tract_linguistes@sciences.re)

Attaché : 1 image · Avertissement de contenu : Entre Balzac, Dumas et Flaubert, lequel selon vous utilise le vocabulaire le plus riche dans son oeuvre (le plus grand nombre de mots différents rapporté au nombre total de mots utilisés). Lequel en utilise le moins, et donc se répète le plus, en termes de vocabulaire ? #devinette #battle Faites votre pari avant de regarder la réponse

Mastodon -- Sciences.Re