Valoriser les données biomédicales

Massives ou méta, socle de la fameuse IA, collectées dans des cohortes, associées à des biobanques, stockées dans des entrepôts, analysées, les données semblent être le nouveau Graal de la recherche en santé. En témoigne une année 2024 riche en lancements et faits marquants. Leurs points communs ? Faciliter l’exploitation et le partage des données de santé et renforcer le positionnement de l’Inserm comme acteur central, au niveau national et international, en matière de génération et de valorisation des données biomédicales.

National
Ces boutons servent à modifier la taille des textes /

Ressources précieuses et sensibles, les données de santé se révèlent des outils puissants, à large spectre : partagées, réutilisées, analysées, mais aussi sécurisées et protégées, elles ouvrent la voie à de nombreuses avancées dans le cadre d’une valorisation qui peut être clinique, sociétale ou économique. Mais les enjeux sont à la mesure des possibles : la richesse et la diversité des données biomédicales nécessitent d’accroître la capacité de protection, de stockage et de calcul, d’en organiser le partage et l’accès, et de mettre en place des infrastructures, des services et un cadre, technique et réglementaire, pour faciliter le déploiement de nouveaux projets et collaborations.

Une révolution en marche

Données biomédicales, données de santé ? Rémy Slama, directeur de recherche Inserm au sein de l’Institut de biologie de l’École normale supérieure à Paris, rappelle que le terme « données de santé » réfère, au sens restreint, aux « données individuelles issues du soin ». Dans une acception plus large, il englobe cependant toutes les données individuelles sur la santé des personnes et leurs déterminants, y compris celles recueillies à des fins de recherche ou de surveillance sanitaire.

En France, le Système national des données de santé gère une base unique au monde qui collige les informations issues des consultations et prescriptions médicales et des hospitalisations des assurés sociaux. Il récupère aussi les causes de décès recensées depuis 1968 par le Centre d’épidémiologie sur les causes médicales de décès, rattaché à l’Inserm. L’Institut produit également de très nombreuses données via ses programmes de recherche, cohortes ou essais cliniques.

« Avec l’Inserm comme opérateur central de la recherche en santé et des structures tel le Health Data Hub, la France est bien positionnée. Il y a toutefois de gros enjeux de nettoyage et d’harmonisation des données, qui diffèrent selon qu’elles sont issues de la recherche clinique, de la recherche en population ou des sciences humaines et sociales », explique l’épidémiologiste. Cet enjeu d’acculturation et de partage de visions entre communautés était au cœur d’un colloque qui a réuni plus de 200 participants le 16 janvier 2024.

« Plusieurs chantiers majeurs nous attendent : disposer d’un référentiel commun, améliorer les procédures, mieux aligner le pilotage des données avec la structuration de la recherche par thématiques et pathologies, rapprocher les visions des biologistes, cliniciens, épidémiologistes, statisticiens, maintenir la confiance des volontaires… C’est encore plus vrai avec le partage et l’utilisation secondaire grandissants des données, en dehors du contexte de soin ou de l’objectif initial de recherche. Des chantiers qui s’inscrivent aussi dans la perspective de l’Espace européen des données de santé, adopté au printemps 2024 par le Parlement européen », témoigne Rémy Slama.

Le réseau des biobanques français

« Les données de santé, historiquement gérées par les cliniciens en France, sont souvent associées à des échantillons biologiques, gérés par les biologistes, rappelle Denis Vivien, directeur de l’institut thématique Neurosciences, neurologie, sciences cognitives et psychiatrie. Et chacun a son jeu de données, sa collection d’échantillons et une certaine propension au protectionnisme ! Or, il est essentiel de travailler sur cette culture du partage et de disposer des outils informatiques et des bases administratives pour faciliter les échanges et l’analyse de grandes masses de données, et donc l’étude de biomarqueurs, de facteurs de risque, de comorbidités… L’Inserm, très proactif sur ce sujet, travaille sur l’interopérabilité et l’interconnexion entre entrepôts de données de santé. »

C’est le cas du projet Smatch coordonné par la biomathématicienne Sarah Zohar, directrice de recherche Inserm et responsable de l’équipe HeKA installée au centre Inria de Paris, et Rodolphe Thiébaut, professeur de santé publique à l’université de Bordeaux. « Son but est de développer et d’appliquer des méthodes statistiques et des approches fondées sur l’IA pour explorer de nouvelles approches et de nouveaux designs d’essais cliniques », précise Sarah Zohar.

À terme, des essais in silico, réalisés au moyen de modèles informatiques, pourraient permettre de valider la mise sur le marché de certains médicaments, notamment dans le domaine des maladies rares. « Il existe plus de 6 000 maladies rares et 95 % d’entre elles ne disposent pas de traitements. Or, elles affectent chacune moins d’une personne sur 2 000 et il est difficile de réaliser des essais cliniques statistiquement concluants avec de si petits échantillons », souligne Sarah Zohar.

En parallèle, la biomathématicienne coordonne aussi au nom de l’Inserm le programme européen Invents, qui réunit des acteurs de la recherche académique, des groupes pharmaceutiques et les agences de régulation européennes. « À travers ce projet initié en 2024, nous cherchons à mettre en place une méthodologie pour répondre aux réglementations dans le développement clinique de nouveaux médicaments orphelins, tout particulièrement pour les enfants. L’objectif n’est donc pas de mettre en place de nouvelles études cliniques mais d’utiliser les connaissances et données existantes pour évaluer et optimiser les performances d’essais in silico avec des patients simulés à partir de données réelles, dans le but d’améliorer la conception des essais cliniques pour les petites populations. »

Former les talents de demain

Outre ces projets audacieux, l’Inserm participe aussi au développement de pôles d’excellence dans le domaine de l’IA. L’Institut est ainsi engagé dans sept des neuf sites répartis sur le territoire qui ont été labellisés « cluster IA » en mai 2024. Financés par le plan France 2030 à hauteur de 360 millions d’euros, « ces centres permettront de poursuivre l’effort de recherche dans ce secteur stratégique », précise Ellen Van Obberghen-Schilling, directrice de recherche Inserm et chaire émérite de l’Institut interdisciplinaire d’intelligence artificielle Côte d’Azur de Nice, un des sites qui vient d’obtenir le label.

La biologiste de l’Institut de biologie Valrose de Nice va ainsi continuer ses travaux sur des outils fondés sur l’IA destinés à analyser par imagerie le microenvironnement tumoral afin de mieux comprendre son rôle dans la progression des cancers et dans leur réponse aux traitements. Au-delà de la recherche, « les clusters IA joueront un rôle important dans la formation des futures générations de scientifiques à l’IA », ajoute Ellen Van Obberghen-Schilling.

Ces projets et financements contribuent à faire de la France un acteur majeur de l’intelligence artificielle en Europe et dans le monde mais « il reste différents obstacles à franchir avant d’atteindre nos objectifs en matière de santé numérique, souligne Luc Buée. L’accès aux données n’est pas toujours simple auprès des différents entrepôts de données de santé. Par ailleurs, il y a un travail important à fournir en amont pour permettre une standardisation des données et l’homogénéisation des bases de données. »

Des volumes de données, c’est bien, encore faut-il qu’elles soient de qualité et exploitables.

Un article issu du rapport d’activité 2024 de l’Inserm.