→ Les 4 étapes pour entrainer un LLM
https://scienceetonnante.com/blog/2025/04/25/les-4-etapes-pour-entrainer-un-llm/
« Voilà le principe de l'apprentissage par renforcement avec une récompense vérifiable [RLVR], qui permet de se passer d'humains qui doivent juger si la réponse est conforme ou pas. »