Projet

Partager des protocoles fiables pour transformer des jeux de données en gold standards : application aux pathologies neuro-vasculaires

Coordination

Responsable(s) coordinateur(s) du projet : Sarah Cohen-Boulakia

Établissement coordinateur :  Université Paris-Saclay

Mots-clés

FAIR, workflows, standards, provenance, partage et réutilisation de protocoles, réutilisation de protocoles, annotation automatique de jeux de données

Résumé

L’accès à une grande variété de données complémentaires, multi-échelles et massives offre des opportunités sans précédent pour la recherche en santé. Un grand nombre d’analyses peuvent être effectuées sur ces ensembles de données, permettant de faire émerger des avancées scientifiques et des découvertes. La Stratégie Nationale d’Accélération en Santé Numérique ambitionne de stimuler l’innovation en matière de santé numérique, ce qui inclut la conception d’approches innovantes d’analyse des données de santé.

Ces analyses sont complexes et reposent sur divers outils qui doivent être paramétrés et chaînés les uns aux autres. Il existe désormais des preuves irréfutables que de nombreuses découvertes scientifiques ne résisteront pas à l’épreuve du temps : améliorer la reproductibilité des résultats obtenus par des approches numériques est d’une importance capitale, en particulier en santé.

Le partage des données de santé est aussi souvent entravé par les impératifs de protection des données personnelles et se heurte à des contraintes techniques (sécurité, volume). Ces contraintes peuvent cependant être limitées lorsque les protocoles et les workflows qui implémentent ces analyses sont suffisamment réutilisables pour reproduire les analyses in situ.

De plus, lorsqu’ils sont conçus pour être réutilisables, les protocoles et workflows fournissent les traces de provenance des données analysées, décrivant comment les résultats ont été obtenus à partir des données et augmentent ainsi la confiance des scientifiques dans les résultats produits. Des solutions innovantes pour l’annotation des données biomédicales et cliniques et pour l’extraction de la provenance sont à concevoir. Les protocoles et les workflows qui utilisent et génèrent de grands ensembles de données hétérogènes devraient être élevés au rang d’objets de première classe et la relation duale inhérente entre données et protocoles/workflows devrait être mieux exploitée.

Les défis incluent donc la normalisation et l’annotation des ensembles de données et des protocoles et workflows, l’extraction des protocoles et workflows à partir de données textuelles, cliniques et biomédicales, et leur synthèse en protocoles et workflows interopérables, partageables et réutilisables.

L’originalité de ShareFAIR réside dans le fait d’aborder à la fois la fiabilité des jeux de données et celle des protocoles d’analyse et workflows et d’exploiter la double relation entre les jeux de données et les protocoles. Plus précisément, ShareFAIR fournira :

  • des standards communs et de qualité pour annoter les données, les protocoles, les workflows, et pour fournir une provenance de qualité retraçant l’origine des données,
  • un cadre interopérable pour le partage, l’annotation, la réutilisation de protocoles et workflows fiables (FAIR),
  • des approches pour extraire des protocoles et workflows à partir de données textuelles afin d’enrichir l’ensemble des protocoles et de mieux documenter la provenance des ensembles de données, et des approches pour apprendre ou extraire des protocoles à partir d’ensembles de données biomédicales et cliniques.

Les preuves de concept et les percées réalisées grâce à ShareFAIR seront appliquées à des cas d’utilisation réels liés aux pathologies neuro-vasculaires avec des ensembles de données multi-échelles (génomique, imagerie neuro-vasculaire et clinique) et des protocoles et workflows d’analyse complexes.

ShareFAIR facilitera la réanalyse des ensembles de données biomédicales tout au long du cycle de vie des projets scientifiques et participera de manière proactive aux efforts à grande échelle vers une science plus reproductible et cumulative. Au niveau de la science des données, ShareFAIR fournira un cadre unique pour la recherche sur l’interopérabilité liée à FAIR. L’objectif et la méthodologie adoptés dans ShareFAIR s’alignent sur les principales infrastructures de recherche européennes telles qu’ELIXIR et EOSC-Life.

Partenaires
Unité Tutelles
LISN – UMR 9015

Institut Convergence DATAIA

CNRS, Université Paris-Saclay, Inria

Centrale Supelec partenaire

ITX – U1087 – UMR 6291 Inserm, CNRS, Université de Nantes,

CHU Nantes partenaire

Hub Bioinformatique – USR 3756  Institut Pasteur, CNRS, Université de Paris,
LIRIS UMR 5205, CNRS, INSA Lyon, Université Claude Bernard Lyon 1, Université Lumière Lyon 2, École Centrale Lyon
LAMSADE, UMR7243 CNRS, Université Paris-Dauphine-PSL
IRISA – UMR 6074, Eq Dyliss CNRS, Inria, Université de Rennes
EMPENN U 1228 Inria, Inserm, CNRS, Université de Rennes
CRC – U 1138      Eq HEKA Inria, Inserm, Sorbonne Université, Université Paris Cité
CEA LIST – LASTI lab CEA, Université Paris-Saclay
En savoir plus