Les langues peu dotées à l’ère du numérique et de l’IA : exemple de la langue #kabyle.

Par Samia Saad Bouzefrane

https://hal.science/hal-05342198v1

Les langues peu dotées à l’ère du numérique et de l’IA : exemple de la langue kabyle

Cette présentation aborde la question des langues peu dotées — c’est-à-dire très faiblement numérisées — et les défis technologiques liés à leur préservation et à leur revitalisation, en les comparant à une dizaine de langues dominantes dans le monde numérique. Sur les quelque 7 000 langues parlées à travers le monde, environ 6 000 sont des langues autochtones, souvent minoritaires, aujourd’hui menacées de disparition. La numérisation et l’intelligence artificielle représentent des leviers potentiels pour leur sauvegarde. Cet exposé illustre ces enjeux à travers l’exemple de la langue kabyle.

Je n'ai pas encore lu le contenu du document. Débit ADSL merdique :p
Oh ! Mince, on cite mon ancien compte Git 🫣 que j'ai supprimé !
Ah oué, quand même !

Pour le clavier, je sais, je dois entrer en contact avec le Keyboard Working Group (du CLDR).

Ceci dit, il y a deux volets : le clavier et le calendrier berbère (en tant que système calendaire).

Pour le clavier, faudra patienter un peu le temps que je calcule la disposition des touches ERGO-L justement afin de proposer d'autres alternatives à azerty, qwerty, qwertz.

Tu te rappelle de : Yugariten ?

Yugariten étant pour moi, le plus large corpus en kabyle que j'ai pu construire à titre personnel.

J'avais publié quelques stats ici, en mode brouillon, en attendant de faire mieux : https://butterflyoffire.codeberg.page/

Mes publications étaient semi-publiques donc peu visibles. C'est fait exprès.

Petite note perso :

Je ne pense pas qu'il y aura une autre personne qui osera, justement s'aventurer afin de reconstruire un tel corpus en kabyle, parce que ça va lui demander beaucoup de temps.

Du temps pour la collecte des liens, le téléchargement, le nettoyage et la standardisation (trop de pollution caractéristique), application d'un détecteur de langue afin de filtrer un maximum de contenu français inséré dans le corpus kabyle ... filtrage-déduplication et j'en oublie peut-être des étapes

C'est pour ce que je dis que mon ordinateur est devenu une vraie poubelle ...

Et encore, je n'ai pas réussis à créer les fichiers `CoNLL-U` en kabyle mais ça viendra (Stanza, SpaCy etc.)

Mais comme, on ne peut pas être partout à la fois, tu peux aussi t'intéresser à l'analyse mophologique laquelle est un sujet central dans une langue :

Exemple l'outil `foma`, `fomafst`
https://fomafst.github.io/morphtut.html

FST en général : https://en.wikipedia.org/wiki/Finite-state_transducer

MorphologicalAnalysisTutorial - foma - A self-contained tutorial for building morphological analyzers. - finite-state compiler and C library