#jerecrute (enfin, pas moi, mais @recherchedatagouv )

Venez contribuer à l'écosystème national des données de la recherche, pour en améliorer le partage et la découvrabilité.

"Vous assurerez le développement, la maintenance technique et la modernisation profonde du catalogue national des données de la recherche de la plateforme Recherche Data Gouv."

https://jobs.inrae.fr/ot-29281

#donneesderecherche
#researchdata
#offredemploi

Ingénieur-e de développement Python – Écosystème data & IA

Vous exercerez votre activité au sein de l'unité mixte de service « Plateforme des données Recherche Data Gouv ». Recherche Data Gouv est un écosystème national au service des données de la recherche qui offre des outils et des accompagnements aux chercheurs tout au long du cycle de vie de leurs données.Pleinement intégré(e) à l'équipe d'ingénierie des données fonctionnant en mode Agile Scrum , vous serez un acteur clé pour concevoir, moderniser et faire évoluer une infrastructure technologique à la pointe. Au-delà du catalogue national, le projet intègre un graphe de connaissances, des tableaux de bord et des outils d'analyse avancés.L'équipe fonctionne en mode Agile Scrum. Le poste requiert une forte capacité à collaborer à distance avec des interlocuteurs répartis sur toute la France.Mission principale :Vous assurerez le développement, la maintenance technique et la modernisation profonde du catalogue national des données de la recherche de la plateforme Recherche Data Gouv. Vous serez en charge de faire évoluer les outils technologiques d’ingénierie des données vers des architectures basées sur l'intelligence artificielle et le web sémantique.Développer et déployer des agents IA (LLM) intégrés aux interfaces afin d’assister les chercheurs pour le dépôt de leurs jeux de données.Concevoir un moteur de recherche sémantique de nouvelle génération et des outils d'analyse automatisés reposant sur les LLMs et les embeddings pour assister la curation et la validation des données.Faire évoluer et administrer un graphe de connaissances sur les données de la recherche en exploitant des ontologies et des thésaurus scientifiques pour structurer l'ensemble de l'écosystème.Architecturer l'articulation technique et l'interopérabilité entre les espaces de stockage des données de la recherche et les environnements de calcul de haute performance.Implémenter des connecteurs et des protocoles de communication modernes, notamment le protocole MCP (Model Context Protocol), pour lier les LLM aux bases de connaissances locales.`Intégrer et exploiter le standard Croissant-ML afin de décrire, structurer et distribuer les jeux de données de manière à optimiser leur utilisation directe par les modèles d'apprentissage automatique.Concevoir les tableaux de bord et les outils d'analyse nécessaires au pilotage de l’ensemble des données de la recherche.Garantir la qualité, la sécurité et la maintenabilité du code produit (tests, revues de code) au sein d'une équipe fonctionnant en mode Agile Scrum. Collaborer quotidiennement avec les Product Owners et l'équipe d'ingénierie pour affiner le backlog et valider les fonctionnalités livrées.

INRAE Jobs
Datathon de la parole, 16-17 novembre 2026 : dépôt, archivage et diffusion des corpus oraux (linguistique, socio-linguistique, histoire orale...)
Le datathon propose aux participants de travailler à la description des ressources et de leur contexte de production, en vue d’une publication des données. Les ateliers seront complétés par des présentations générales afin de situer les enjeux et stratégies des dépôts dans un contexte de #ScienceOuverte.
https://bnf.hypotheses.org/55161
#DonnéesdeRecherche

🚀 L’Université de Lorraine se dote d'un accompagnement à la fouille de textes et données (TDM)

L'atelier de la donnée ADOC Lorraine complète son offre de service avec un nouvel axe : la fouille de textes et de données ou TDM (text and data mining).

🔍 Pourquoi ce service ?
Comme le relève une enquête menée en interne en 2024, les scientifiques ont de plus en plus besoin d’analyser rapidement de grands volumes de données textuelles ou quantitatives (articles, rapports, bases de données, corpus…).

Pourtant, exploiter ces ressources soulève des questions :
✅ Juridiques : droits d’auteur, licences, conditions d’accès…
✅ Techniques : quels outils libres ? Quels contenus numériques sous abonnement sont disponibles à l’UL ?
✅ Méthodologiques : comment structurer son analyse ?

➡️ Notre service d’accompagnement porté par Christa Guele répond à ces enjeux en offrant :
📌 Des conseils sur l'aspect légal pour vos projets de TDM
📌 Un accès facilité aux ressources payantes et gratuites
📌 Des conseils pratiques sur les outils et méthodes, notamment ISTEX

💡 Un service évolutif :
Déjà opérationnel pour vous conseiller sur les aspects juridiques et les ressources disponibles, il s’enrichira bientôt avec des formations et s’adaptera aux besoins de la communauté.

🔗 En savoir plus : https://scienceouverte.univ-lorraine.fr/fouille-de-textes-et-de-donnees/

#ScienceOuverte #DonnéesDeRecherche #TDM

Fouille de textes et de données - TDM - Science Ouverte

Qu’est-ce que c’est ? La fouille de textes et de données, aussi appelée text and data mining (TDM), est un ensemble de techniques visant à « […] la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations  » (article ... Lire la suite

Science Ouverte

🤔 Vous vous posez des #QuestionsJuridiques liées à la gestion des #DonnéesDeRecherche ? Vous trouverez sûrement une ressource pour vous aider sur le 👉 site #JurisDoR

➡️ https://jurisdor.fr/

Accueil - JurisDoR

JurisDoR - Offrir des ressources juridiques sur le droit des données de la recherche. Le site JurisDoR diffuse au public et de la communauté de l’enseignement supérieur et de la recherche les ressources juridiques nécessaires à la gestion des données de la recherche. Ce site est mis en place par l’Université de Montpellier et le ministère de l’Enseignement Supérieur et de la Recherche, et participe à la démarche du Plan national pour la science ouverte dans le cadre de l’action Recherche Data Gouv.

10 ans d’enquêtes sur le #PartageDesDonnées : les scientifiques connaissent mieux les #PrincipesFAIR mais ils manquent toujours de soutien.
Ils ont aussi de plus en plus recours à l’#IA pour la #GestionDesDonnées
#DonnéesDeRecherche #OpenData

➡️ https://doi.org/10.6084/m9.figshare.30823079.v5

Le #PlanDeGestionDesDonnées n'est pas seulement une obligation administrative, il constitue une documentation très utile pour comprendre les #DonnéesDeRecherche générées ou collectées au cours de son projet.
👉 Comment s'en servir pour améliorer son projet ?
➡️ https://openscience.pasteur.fr/2026/01/20/comment-se-servir-du-plan-de-gestion-des-donnees-pour-ameliorer-son-projet/
#DonnéesDeRecherche #PGD
Comment se servir du plan de gestion des données pour améliorer son projet ?

Le plan de gestion des données (PGD) est encore souvent perçu comme un document administratif obligatoire qui apporte peu de valeur ajoutée au projet. Nous vous proposons donc une série de conseils…

Open science : évolutions, enjeux et pratiques

Le machine-actionable #DMP (#maDMP) est une nouvelle génération de #PlanDeGestionDeDonnées exploitable par les machines et qui devrait répondre à la difficulté d'exploiter la forme textuelle statique des #PGD classiques. #OnVousExplique 🤔
#Interopérabilité #DonnéesDeRecherche

➡️ https://openscience.pasteur.fr/2026/01/12/le-machine-actionable-dmp-madmp/

Le machine-actionable DMP (maDMP)

Le plan de gestion de données (PGD) classique, sous forme de document textuel statique, est un bon outil de planification mais il est difficile à exploiter. La nouvelle génération de PGD exploitabl…

Open science : évolutions, enjeux et pratiques
Définir une approche qualité des données de recherche -

Ce guide pratique vise à établir une approche qualité pour les données de recherche. Il propose un cadre méthodologique structuré permettant d’initier ou de renforcer une démarche qualité tout au long du cycle de vie des données. Construit à partir d’analyses de concepts, de pratiques et de recommandations, il offre un cadre de référence cohérent avec les principes FAIR (Findable, Accessible, Interoperable, Reusable). Ses objectifs principaux sont : •Présenter un ensemble de principes et de bonnes pratiques garantissant la fiabilité, la traçabilité et la réutilisabilité optimale des données de recherche ; •Faciliter l’évaluation et le suivi de la qualité des données à chaque étape de leur cycle de vie. •L’approche qualité proposée est organisée autour de six phases : préparation, collecte/production, traitement/analyse, préservation/stockage, partage/diffusion et archivage. Le guide s’appuie sur une approche interdisciplinaire et ouverte, reposant sur : •Une revue de la littérature scientifique sur la qualité des données ; •Les travaux de la Task Force FAIR Metrics and Data Quality de l’European Open Science Cloud (EOSC), notamment le rapport Towards a Data Quality Framework for EOSC ; •Des études de cas pratiques. La démarche est inscrite dans une dynamique d’amélioration continue inspirée du cycle de Deming (PDCA).

Comment évaluer le niveau de conformité de ses #DonnéesDeRecherche avec les #PrincipesFAIR ? Pas toujours très simple, mais on vous explique #CommentFaire grâce à une sélection d'outils automatiques et de questionnaire

➡️ https://openscience.pasteur.fr/2025/11/24/comment-evaluer-le-niveau-de-conformite-de-ses-donnees-avec-les-principes-fair/

Comment évaluer le niveau de conformité de ses données avec les principes FAIR ?

Nous vous parlons régulièrement des principes FAIR, mais comment savoir si vos jeux de données y sont conformes ? Ce n’est pas toujours très simple, car ces principes sont étroitement liés à …

Open science : évolutions, enjeux et pratiques

📢 Webinaires Inist | Mardi 25/11

📅 10h–11h30 : PGD – Bonnes pratiques de rédaction
📅 11h–11h55 : Click & Read

👉 Programme : https://www.inist.fr/services/accompagner/webinaires/

#INIST #Webinaire #OpenScience #DonnéesDeRecherche #PGD #ClickAndRead #ScienceOuverte #FormationEnLigne