Si on appliquait au domaine de l’IA la rigueur épistémologique qu’on demande aux sciences biomédicales, 95% de ses publications « scientifiques » seraient à jeter dans la fosse à purin.

C’est le royaume de la non-reproducibilité, du cherry-picking, des statistiques invraisemblables, de la post-rationalisation et de l’exagération.

[…]

#ia #science

J’ai commencé dans un sous-domaine de l’IA qui était dans un état déplorable niveau épistémologique. En dix ans, on a collectivement réussi à le mettre à peu près au carré.

Et puis est arrivé la mode du Deep Learning. Et depuis, à travers tout le domaine, c’est la merde intégrale.

[…]

On en est à un niveau où je me fais jeter si dans une review j’exige plus que n=2 pour calculer une moyenne.

Où mes collègues refusent qu’on affiche clairement les conclusions d’une étude qu’on fait qui montre que telle méthode à la mode fait de la merde. Parce que ça fait mauvais genre.

Où ça passe mieux si tu cherry-pick un exemple qui marche parmi 99 qui ne marchent pas.

Je dis qu’on a un putain de problème dans ce milieu.

[…]

On en est à un point où quand une boite sort un rapport technique dans le but de faire monter le cours de son action, on le commente, comme si c’était crédible, au lieu de l’envoyer chier comme une merde.

Où on n’a plus de regard critique parce qu’« on a vu que "ça" marchait ailleurs ». On sur-géneralise parce qu’on y croit. Parce que c’est une escalade d’engagement et que la pression pour suivre est énorme.

Épistémologiquement, tout cela n’a aucun putain de sens.

@nojhan Ça sort de quel bouquin ?

L'enseignant de connexionnisme nous avait dit en 1996 que la recherche en IA était souvent non reproductible..

@MonniauxD Ça sort de mon expérience perso de scientifique qui a bossé 25 ans, majoritairement autour de la question de l’analyse empirique de méthodes d’IA stochastiques (et pas que des réseaux de neurones).
@MonniauxD (Et 1886, ça me parait un peu tôt  ;)
@MonniauxD Mon pari c’est qu’en 1986, on ne parlait pas de reproducibilité, mais les informaticiens théoriques critiquaient les méthodes computationnelles parce qu’elles n’étaient pas déterministes. Ce qui est une critique mal construite de mathématiciens n’ayant pas de culture scientifique.

@nojhan Non non, c'était plutôt une critique du type

"l'équipe A publie des résultats étonnants sur sa méthode, et quand les autres équipes essayent de refaire pareil en lisant le papier ça ne marche pas"

@MonniauxD Je me méfie de la culture épistémologique en IA jusqu'au début des années 2010, parce que j'ai vraiment trop vu des gens ne pas savoir comment évaluer si des perfs sont similaires.

J'ai également un souvenir cuisant de m'être fait (littéralement) rire au nez par un jury de recrutement du CNRS pour avoir suggéré une approche empirique de l'évaluation de l'IA, plutôt que par la preuve (une collègue aura plus tard une médaille du CNRS pour l'avoir fait, d'ailleurs).

@nojhan Pour avoir fait quoi ? preuve ou empirisme ?

(Pour le jury CNRS je ne suis pas trop étonné, ça avait une réputation très info théorique / complexité / algo / graphes.)

@MonniauxD Les deux, justement. Enfin être entrée au CNRS par les maths, puis avoir fait de l’empirique.
@nojhan Il y a trop d'enjeux financiers et sociétaux pour pouvoir être objectif sur le sujet ?

@Florian Oui et non. Ça ne se présente pas directement comme ça. C’est simplement une conséquence de plein de leviers systémiques.

Le politique a détruit l’organisation de la recherche scientifique pour la mettre à sa botte, et ça a marché, en gros.

@nojhan c'est à peu prêt la même chose pour le spectacle "qui marche" Souvent personne ne sait vraiment pourquoi. Alors on suppose et on applique de fausses bonnes idées qui ont surtout appauvri l'offre en 20ans - stars ou influenceurs - comique - la blague qu'on retient - l'air qu'on peut chanter ... mais rien qui fasse de la scène ce lieu de recherche, où l'on se déplace, où l'on remet en cause, on l'on touche la profondeur de l'être et des relations humaines. Ajoutez à cela l'arraisonnement administratif effectué par les DRAC et vous avez le nouveau paysage culturel Français.
@nojhan Je sais pas si je prendrais vraiment les sciences biomédicales comme exemple en terme de rigueur... Les éditeurs/reviewers des "grands journaux" demandent des trucs de dingues (genre manip de validation à 6 chiffres) justement parce qu'ils savent que TOUT le domaine ment sur les résultats et cache tout sous le tapis. On a littéralement les cliniciens qui nous donnent le plan et les conclusions de l'article qu'on doit publier avec leurs données avant même que la cohorte soit constituée (merci le système SIGAPS d'ailleurs).
@linsorld Je pense que ça reste un ordre de grandeur plus sérieux qu'en IA. Ça donne une idée du problème de rigueur épistémologique que la communauté scientifique est en train de se tirer dans le pied...