Ce weekend on a fait un goûter "IA générative" chez ma mère (attendez fuyez pas)

Le principe c'était que je fasse une pres et qu'on discute avec ses potes autour de ce sujet là.

Et vraiment c'était hyper drôle, j'avais fait deux listes (secrètes) de trois thèmes, j'ai demandé à deux personnes différentes de me donner un nombre entre 1 et 3.

Du coup on s'est retrouvé avec comme thèmes "Les chansons de Michel Sardou" et "Les tensions géopolitiques entre la Provence et la Bretagne".

Et du coup j'avais préparé une liste de prompts pour illustrer des problématiques différentes (exemple : "L'IA générative ne comprend pas le sens", "l'IA générative invente des trucs probable")

J'avais un modèle en local, Ministral, et je le promptai au fur et à mesure de la présentation. J'ai commencé avec des trucs simples genre "Quelle est la troisième lettre du mot Sardou ?"

Évidemment l'IA répond correctement une fois sur 10 bah il a fallu que ça soit pendant la démo, donc je suis passée pour une conne pendant 30s. Puis j'ai copié collé le même prompt et ça a sorti une autre réponse et tout le groupe était là en mode "mais wtf ???'"

@UnePorte Expérience très intéressante. Je me demande néanmoins comment tu aurais abordé la chose si une des personnes avait utilisé les même prompt dans ChatGPT et montré qu'il répond correctement à tous les coups ?

Je demande parce que j'ai fais le test justement.
Alors bien sûr il est possible de le mettre en défaut mais en modifiant pas mal le prompt pour inclure de l'ambiguité.

@fmasy

je te mets trois exemples réalisés à l'instant sur ChatGPT sans être connectée et sans historique. Je suis à peu près sûre qu'il y a des personnes dans ces boites (ou sous traité) dont le taff consiste à :

  • trouver les réponses les plus nulles du chatbot
  • implémenter des mécanismes automatiques de détections des prompts qui provoquent ce genre de réponses
  • faire suivre ces prompts à un outil spécialisé et conçu pour ça qui n'est pas réellement le LLM, par exemple une calculatrice ou un programme "classique"

Sauf que nous on le voit pas, ça se passe dans les coulisse. Et donc des gens trouvent constamment des prompts qui donnent des résultats éclatés au sol, et derrière c'est patché au cas par cas. Ça ne veut pas dire que le problème de fond est résolu.

@fmasy (et du coup le jour J si quelqu'un avait voulu faire la même chose sur chatgpt par exemple, on aurait pris quelques minutes pour trouver des prompts qui amènent ce genre de résultats, quand on a l'habitude c'est vraiment pas complexe)