« Langue de Molière », « langue de Racine » (https://mastodon.online/@f_moncomble/114575877138524904)… et pourquoi pas « langue de Jul » ?

Ça vous parait insensé ? Figurez-vous qu’on a fait une petite expérience, 20 minutes montre en main…

#linguistique @tract_linguistes
1/7

2/7
On a récupéré les paroles de ses chansons (pas loin de 1500)…
3/7
On les a importées dans TXM…
4/7
On les a passées dans le script qui calcule le ratio formes/tokens…
5/7
Et voilà : en termes de diversité lexicale, Jul n’a rien à envier aux dramaturges classiques !
6/7
(On a fait le test aussi avec les lemmes mais, les chansons contenant un certain nombre de mots inconnus du lemmatiseur de TXM, le résultat demanderait à être affiné.)
7/7
Et voilà un clou de plus dans le cercueil du mythe des « 500 mots de vocabulaire des jeunes » (bouh !), qui rejoint celui des « 1000 mots de Racine » (wouah !) au rayon des intox à oublier pour de bon.
@f_moncomble Intéressant, mais comment les tokens sont-ils ordonnés ? Est-ce que ce sont les textes mis bout à bout, ou bien y a-t-il une randomisation ?
@Armavica @f_moncomble en principe on randomise. On peut même faire plusieurs échabtillonnages successifs, selon le nombre de paliers qu'on fait.
@jbouton @Armavica @tract_linguistes
Évidemment ça n’a aucune prétention à être absolument rigoureux scientifiquement !
Cela dit sur du langage naturel la distribution est en principe suffisamment aléatoire, et si par hasard un texte avait une diversité lexicale nettement différente des autres ça se manifesterait par une bosse ou un creux sur la courbe, ce qui n’est pas le cas ici.
@f_moncomble @Armavica @tract_linguistes c'est sans doute à ça qu'on doit les petits décrochement ici ou là dans la courbe rouge par exemple !
@jbouton @f_moncomble @tract_linguistes Super, merci à vous deux pour les explications !
@Armavica @f_moncomble si ça t'intéresse, @Armavica , il y a un bouquin entier de Harald Baayen (2001), le spécialiste de la question, sur la modélisation de ces courbes. Curieusement, c'est un livre qui semble plus pensé pour des mathématiciens que pour des linguistes ^^ , mais il contient de nombreux exemples analogues, notamment tirés de Alice au pays des merveilles. La principale application en linguistique est surtout de comparer la productivité de différents procédés de formation des mots.
@jbouton Merci, ça a l'air d'être un livre qui pourrait me plaire :) Je l'ajoute à la pile ^^' @f_moncomble
@f_moncomble je serais curieux de voir en comparaison un texte "banal" (journalisme, etc), pour qu'on voie bien que la comparaison des courbes de croissance peut avoir un sens !

@jbouton @tract_linguistes Ça peut se faire ! En attendant, un autre exemple dans ce pouet :

https://social.sciences.re/@tract_linguistes/114592593439426708

Linguistes atterrées ☑️ (@tract_linguistes@sciences.re)

Attaché : 1 image · Avertissement de contenu : Entre Balzac, Dumas et Flaubert, lequel selon vous utilise le vocabulaire le plus riche dans son oeuvre (le plus grand nombre de mots différents rapporté au nombre total de mots utilisés). Lequel en utilise le moins, et donc se répète le plus, en termes de vocabulaire ? #devinette #battle Faites votre pari avant de regarder la réponse

Mastodon -- Sciences.Re

@f_moncomble @jbouton @tract_linguistes il faudrait un gros corpus quand même en nombre de mots, écrit par une seule personne, dans un domaine assez homogène, en libre accès et déjà numérisé.

Genre une thèse de doctorat et tous les articles de la même personne sur HAL? Mais pas une thèse en sciences humaines, elle serait bourrée de citations d'autrices et auteurs divers... Une thèse en chimie, en géographie, jsp...

Plus le domaine est pointu et le texte utilitaire ou scientifique, plus la courbe devrait plafonner après la première phase de montée rapide