#IA Beaucoup de collègues pensent que LA source des #stéréotypes des grands modèles de langues (ou IA génératives) à la #gpt c'est les données d'entrainement... Certes, elles jouent un rôle, mais il y a d'autres sources de biais stéréotypés. L'une d'elles est assez inattendue : l'évaluation.
En gros, on utilise de très gros jeux de données, souvent de type QCM, pour évaluer les modèles (voire les entraîner), qu'on appelle des #benchmarks. Mes étudiant·e·s sont allés regarder ces benchmarks de plus près et iels ont trouvé pas mal de pbs : des biais explicites (ça avait déjà été mentionné par d'autres), mais également des biais implicites et des erreurs factuelles. Si cela vous intéresse, nous avons écrit sur le sujet un papier en français pour la conférence TALN, que vous trouverez ici : https://inria.hal.science/hal-05618509/file/Benchmarks_trad_TALN-VF.pdf
En gros, on utilise de très gros jeux de données, souvent de type QCM, pour évaluer les modèles (voire les entraîner), qu'on appelle des #benchmarks. Mes étudiant·e·s sont allés regarder ces benchmarks de plus près et iels ont trouvé pas mal de pbs : des biais explicites (ça avait déjà été mentionné par d'autres), mais également des biais implicites et des erreurs factuelles. Si cela vous intéresse, nous avons écrit sur le sujet un papier en français pour la conférence TALN, que vous trouverez ici : https://inria.hal.science/hal-05618509/file/Benchmarks_trad_TALN-VF.pdf
đź§¶