Florent Moncomble

@f_moncomble@mastodon.online
718 Followers
109 Following
938 Posts
Maitre de Conférences en linguistique anglaise | Senior Lecturer in English linguistics | Linguiste atterré @tract_linguistes | #Linguistics #Linguistique #Linguistodon #GrammaireAnglaise #Handicap #Autisme
Présence en lignehttps://linktr.ee/f_moncomble
Corpus toolshttps://corpustools.prendrelangue.fr/
📍Arras, France & Cork, Ireland
J'ai été invité par @adrienserriere sur les ondes de @franceinter pour causer de cette affreuse vidéo générée par IA et postée par le gouvernement. Outre les images délirantes, le danger, c'est la privatisation du discours mémoriel.
https://www.radiofrance.fr/franceinter/podcasts/l-info-de-france-inter/l-info-de-france-inter-3120900
Une vidéo du gouvernement sur la Résistance, générée par IA, hérisse des historiens

Mardi 27 mai, à l'occasion de la Journée nationale de la Résistance, le gouvernement a posté une vidéo sur ses réseaux sociaux, réalisée grâce à l'IA, montrant une femme résistante pendant la Seconde guerre mondiale, sauf qu'elle était truffée d'erreurs.

France Inter

There's so much to dunk on in this NYT piece and so little time, but I gotta start here: Some law profs at U Chicago did a study to see if the chatbots could answer questions based on specific materials and found, unsurprisingly, that they make shit up.

https://www.nytimes.com/2025/06/07/technology/chatgpt-openai-colleges.html

>>

Inside OpenAI’s Plan to Embed ChatGPT Into College Students’ Lives

OpenAI, the firm that helped spark chatbot cheating, wants to embed A.I. in every facet of college. First up: 460,000 students at Cal State.

The New York Times

Notre site de dépôt de nouvèles en ortografe exploratoire est ouvert. Envoyez-nous vos textes pour participer au concours. Les meilleurs textes seront publiés dans un recueil chez @LibertaliaLivre !

Lien⤵️⤵️⤵️

https://www.tract-linguistes.org/concours-de-nouvelles-en-orthographe-exploratoire-2025/

N'attendons pas encore un siècle avant que les politiques décident enfin de la prochaine réforme de l'orthographe française. Avançons ensemble, de la meilleure manière possible : empiriquement, à tâtons, collectivement.
***********
🌟 Gagnez jusqu’à 300€ en écrivant une nouvelle dans une orthographe non conventionnelle ! 🌟

Pourquoi participer ?

L’orthographe de la langue française est jonchée d’irrégularités, d’exceptions et d’incohérences. La dernière réforme de l’orthographe, datant de 1990, a peu d’impact et n’est pas systématiquement appliquée. La précédente remonte à 1878.

Dans le but d’ouvrir le débat sur une nouvelle réforme, l’association Tract des Linguistes encourage les initiatives favorisant l’appropriation et la remise en question du code graphique. Elle organise un concours international de nouvelles dans lequel tout le monde est invité à écrire dans l’orthographe de son choix.

Comme l’a montré la linguiste Nina Catach et ses collègues, l’orthographe est un système. Il existe des grandes régularités. Mais beaucoup d’anomalies historiques la rendent compliquée.

L’objectif de ce concours est d’amener le public à jouer avec l’orthographe, à essayer de nouvelles formes. Il ne s’agit pas d’écrire comme bon vous semble. Le jury sera très attentif à la cohérence interne du système proposé et à la pertinence des règles choisies.

#orthographe #langueFrancaise

Concours de nouvelles en orthographe exploratoire

Explorez l'orthographe du français en écrivant une nouvelle avant le 30 juin 2025. Jusqu'à 300€ et une publication chez Libertalia à gagner.

Le français va très bien, merci
Quels fantasmes se cachent derrière l'expression "la langue de Molière"? Extraits de l'émission #laderniere sur @laradionova !
cc @tract_linguistes
Mais 2e constat : Obama met en fait une claque à tout le monde, et Trump n'est pas dernier de la classe, faisant légèrement mieux que les Bush, mais aussi que Clinton :
Alors, d'où viennent les allégations selon lesquelles Trump parle « comme un enfant de 8 ans » ? En fait, la méthodologie des « études » qui les sous-tendent est le plus souvent défaillante (pour rester poli)…
1er constat : en effet, Trump se prend une claque de la part d'Obama, connu pour ses talents d'orateur.
Ça nous fait :
- Reagan : 166 textes
- Bush (père) : 178 textes
- Clinton : 434 textes
- Bush (fils) : 376 textes
- Obama : 383 textes
- Biden : 64 textes
- Trump (1 & 2) : 154 textes
Cependant, je n'ai pas pris la peine (c'est pas un article scientifique, hein) de supprimer les questions des journalistes — qui 1) représentent une faible part du total, et 2) ne sont guère susceptibles de créer des différences significatives entre présidents. Mais bon, du coup c'est pas parfait.
J'ai récupéré les transcriptions de toutes les interviews et conférences de presse des 7 derniers présidents américains (c'est-à-dire depuis Reagan). Pas les discours, qui sont des prises de parole scriptées et, de surcroit, le plus souvent rédigées par des conseillers.
×
5/7
Et voilà : en termes de diversité lexicale, Jul n’a rien à envier aux dramaturges classiques !
6/7
(On a fait le test aussi avec les lemmes mais, les chansons contenant un certain nombre de mots inconnus du lemmatiseur de TXM, le résultat demanderait à être affiné.)
7/7
Et voilà un clou de plus dans le cercueil du mythe des « 500 mots de vocabulaire des jeunes » (bouh !), qui rejoint celui des « 1000 mots de Racine » (wouah !) au rayon des intox à oublier pour de bon.
@f_moncomble Intéressant, mais comment les tokens sont-ils ordonnés ? Est-ce que ce sont les textes mis bout à bout, ou bien y a-t-il une randomisation ?
@Armavica @f_moncomble en principe on randomise. On peut même faire plusieurs échabtillonnages successifs, selon le nombre de paliers qu'on fait.
@jbouton @Armavica @tract_linguistes
Évidemment ça n’a aucune prétention à être absolument rigoureux scientifiquement !
Cela dit sur du langage naturel la distribution est en principe suffisamment aléatoire, et si par hasard un texte avait une diversité lexicale nettement différente des autres ça se manifesterait par une bosse ou un creux sur la courbe, ce qui n’est pas le cas ici.
@f_moncomble @Armavica @tract_linguistes c'est sans doute à ça qu'on doit les petits décrochement ici ou là dans la courbe rouge par exemple !
@jbouton @f_moncomble @tract_linguistes Super, merci à vous deux pour les explications !
@Armavica @f_moncomble si ça t'intéresse, @Armavica , il y a un bouquin entier de Harald Baayen (2001), le spécialiste de la question, sur la modélisation de ces courbes. Curieusement, c'est un livre qui semble plus pensé pour des mathématiciens que pour des linguistes ^^ , mais il contient de nombreux exemples analogues, notamment tirés de Alice au pays des merveilles. La principale application en linguistique est surtout de comparer la productivité de différents procédés de formation des mots.
@jbouton Merci, ça a l'air d'être un livre qui pourrait me plaire :) Je l'ajoute à la pile ^^' @f_moncomble
@f_moncomble je serais curieux de voir en comparaison un texte "banal" (journalisme, etc), pour qu'on voie bien que la comparaison des courbes de croissance peut avoir un sens !

@jbouton @tract_linguistes Ça peut se faire ! En attendant, un autre exemple dans ce pouet :

https://social.sciences.re/@tract_linguistes/114592593439426708

Linguistes atterrées ☑️ (@tract_linguistes@sciences.re)

Attaché : 1 image · Avertissement de contenu : Entre Balzac, Dumas et Flaubert, lequel selon vous utilise le vocabulaire le plus riche dans son oeuvre (le plus grand nombre de mots différents rapporté au nombre total de mots utilisés). Lequel en utilise le moins, et donc se répète le plus, en termes de vocabulaire ? #devinette #battle Faites votre pari avant de regarder la réponse

Mastodon -- Sciences.Re

@f_moncomble @jbouton @tract_linguistes il faudrait un gros corpus quand même en nombre de mots, écrit par une seule personne, dans un domaine assez homogène, en libre accès et déjà numérisé.

Genre une thèse de doctorat et tous les articles de la même personne sur HAL? Mais pas une thèse en sciences humaines, elle serait bourrée de citations d'autrices et auteurs divers... Une thèse en chimie, en géographie, jsp...

Plus le domaine est pointu et le texte utilitaire ou scientifique, plus la courbe devrait plafonner après la première phase de montée rapide