Mastodawn

Les langues peu dotées à l’ère du numérique et de l’IA : exemple de la langue #kabyle.

Par Samia Saad Bouzefrane

Les langues peu dotées à l’ère du numérique et de l’IA : exemple de la langue kabyle

Cette présentation aborde la question des langues peu dotées — c’est-à-dire très faiblement numérisées — et les défis technologiques liés à leur préservation et à leur revitalisation, en les comparant à une dizaine de langues dominantes dans le monde numérique. Sur les quelque 7 000 langues parlées à travers le monde, environ 6 000 sont des langues autochtones, souvent minoritaires, aujourd’hui menacées de disparition. La numérisation et l’intelligence artificielle représentent des leviers potentiels pour leur sauvegarde. Cet exposé illustre ces enjeux à travers l’exemple de la langue kabyle.

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂Feb 5

Je n'ai pas encore lu le contenu du document. Débit ADSL merdique :p

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂

Oh ! Mince, on cite mon ancien compte Git 🫣 que j'ai supprimé !

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂Feb 5

Ah oué, quand même !

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂Feb 5

Pour le clavier, je sais, je dois entrer en contact avec le Keyboard Working Group (du CLDR).

Ceci dit, il y a deux volets : le clavier et le calendrier berbère (en tant que système calendaire).

Pour le clavier, faudra patienter un peu le temps que je calcule la disposition des touches ERGO-L justement afin de proposer d'autres alternatives à azerty, qwerty, qwertz.

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂Feb 5

Tu te rappelle de : Yugariten ?

Yugariten étant pour moi, le plus large corpus en kabyle que j'ai pu construire à titre personnel.

J'avais publié quelques stats ici, en mode brouillon, en attendant de faire mieux : https://butterflyoffire.codeberg.page/

Mes publications étaient semi-publiques donc peu visibles. C'est fait exprès.

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂Feb 5

Petite note perso :

Je ne pense pas qu'il y aura une autre personne qui osera, justement s'aventurer afin de reconstruire un tel corpus en kabyle, parce que ça va lui demander beaucoup de temps.

Du temps pour la collecte des liens, le téléchargement, le nettoyage et la standardisation (trop de pollution caractéristique), application d'un détecteur de langue afin de filtrer un maximum de contenu français inséré dans le corpus kabyle ... filtrage-déduplication et j'en oublie peut-être des étapes

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂Feb 5

C'est pour ce que je dis que mon ordinateur est devenu une vraie poubelle ...

Et encore, je n'ai pas réussis à créer les fichiers `CoNLL-U` en kabyle mais ça viendra (Stanza, SpaCy etc.)

Show thread

athmane mokraoui [BoF] ⏚ꝃñ⌁⁂Feb 5

Mais comme, on ne peut pas être partout à la fois, tu peux aussi t'intéresser à l'analyse mophologique laquelle est un sujet central dans une langue :

Exemple l'outil `foma`, `fomafst`
https://fomafst.github.io/morphtut.html

FST en général : https://en.wikipedia.org/wiki/Finite-state_transducer

Les langues peu dotées à l’ère du numérique et de l’IA : exemple de la langue kabyle

MorphologicalAnalysisTutorial - foma - A self-contained tutorial for building morphological analyzers. - finite-state compiler and C library