#jerecrute (enfin, pas moi, mais @recherchedatagouv )
Venez contribuer à l'écosystème national des données de la recherche, pour en améliorer le partage et la découvrabilité.
"Vous assurerez le développement, la maintenance technique et la modernisation profonde du catalogue national des données de la recherche de la plateforme Recherche Data Gouv."
Ingénieur-e de développement Python – Écosystème data & IA
Vous exercerez votre activité au sein de l'unité mixte de service « Plateforme des données Recherche Data Gouv ». Recherche Data Gouv est un écosystème national au service des données de la recherche qui offre des outils et des accompagnements aux chercheurs tout au long du cycle de vie de leurs données.Pleinement intégré(e) à l'équipe d'ingénierie des données fonctionnant en mode Agile Scrum , vous serez un acteur clé pour concevoir, moderniser et faire évoluer une infrastructure technologique à la pointe. Au-delà du catalogue national, le projet intègre un graphe de connaissances, des tableaux de bord et des outils d'analyse avancés.L'équipe fonctionne en mode Agile Scrum. Le poste requiert une forte capacité à collaborer à distance avec des interlocuteurs répartis sur toute la France.Mission principale :Vous assurerez le développement, la maintenance technique et la modernisation profonde du catalogue national des données de la recherche de la plateforme Recherche Data Gouv. Vous serez en charge de faire évoluer les outils technologiques d’ingénierie des données vers des architectures basées sur l'intelligence artificielle et le web sémantique.Développer et déployer des agents IA (LLM) intégrés aux interfaces afin d’assister les chercheurs pour le dépôt de leurs jeux de données.Concevoir un moteur de recherche sémantique de nouvelle génération et des outils d'analyse automatisés reposant sur les LLMs et les embeddings pour assister la curation et la validation des données.Faire évoluer et administrer un graphe de connaissances sur les données de la recherche en exploitant des ontologies et des thésaurus scientifiques pour structurer l'ensemble de l'écosystème.Architecturer l'articulation technique et l'interopérabilité entre les espaces de stockage des données de la recherche et les environnements de calcul de haute performance.Implémenter des connecteurs et des protocoles de communication modernes, notamment le protocole MCP (Model Context Protocol), pour lier les LLM aux bases de connaissances locales.`Intégrer et exploiter le standard Croissant-ML afin de décrire, structurer et distribuer les jeux de données de manière à optimiser leur utilisation directe par les modèles d'apprentissage automatique.Concevoir les tableaux de bord et les outils d'analyse nécessaires au pilotage de l’ensemble des données de la recherche.Garantir la qualité, la sécurité et la maintenabilité du code produit (tests, revues de code) au sein d'une équipe fonctionnant en mode Agile Scrum. Collaborer quotidiennement avec les Product Owners et l'équipe d'ingénierie pour affiner le backlog et valider les fonctionnalités livrées.

