Bien utiliser l’IA

Les systèmes d’IA offrent de nouvelles possibilités pour le travail quotidien des agents de l’Inserm, mais leur utilisation comporte des risques, notamment avec les plateformes externes et les données sensibles. Cette page présente des recommandations pratiques, un ensemble de questions-réponses et des repères éthiques pour accompagner une utilisation responsable et sécurisée des SIA.

Ces boutons servent à modifier la taille des textes /

L’Inserm travaille actuellement à la mise à disposition progressive auprès de ses agents de systèmes d’IA utilisables dans un cadre informatique interne sécurisé. Les présentes recommandations ont pour objectif de clarifier le cadre d’utilisation des SIA et de minimiser les risques potentiels liés, en particulier, à l’usage des plateformes d’IA extérieures à l’Inserm.

Importance de la formation et de l’information

La première recommandation est la nécessité de se former à l’utilisation de systèmes d’IA quels qu’ils soient. Pour plus de détails, consulter les recommandations liées à l’« AI literacy » de l’AI Act

L’Inserm propose une sélection de formations à distance gratuites, correspondant à des prérequis d’expertise variés. Pour des formations certifiantes, contacter le service de formation de votre délégation régionale ou le pôle des formations nationales de l’Inserm.

D’autre part, le Comité d’éthique et le programme Lorier de l’Inserm ont émis une note relative aux systèmes d’IA. Nous recommandons à tout utilisateur de SIA de la consulter préalablement à son engagement avec ces outils. 

Se former

Niveau débutant

Niveau Avancé

Pour aller plus loin

Les tutoriels de l’équipe Myriad du Creatis proposent une analyse approfondie des principaux modèles (auto-encodeurs, graph neural networks, modèles de diffusion…).

Questions-réponses

Pour vous accompagner dans la mise en pratique de ces recommandations et répondre aux questions concrètes que soulève l’utilisation des systèmes d’IA, nous avons compilé ci-dessous une série de questions-réponses. Celles-ci abordent notamment les enjeux liés aux plateformes d’IA générative externes, aux données sensibles, ainsi qu’aux développements internes à l’Inserm.

Sur les plateformes d’IA générative externes à l’Inserm

Quel est le prix des plateformes d’IA génératives externes à l’Inserm ?

Le coût écologique des SIA générative est très significatif, pour l’apprentissage mais aussi pour leur simple utilisation directe par un « prompt » ( l’instruction sous forme de texte envoyée par l’utilisateur au système d’IA). Cela est en particulier dû à l’énergie et à l’eau de refroidissement nécessaires aux data centers qui les alimentent. Nous renvoyons à la note du Comité d’éthique de l’Inserm pour plus d’information. À titre indicatif, il est prévu que les futurs data centers français annoncés en 2025 consomment chacun une puissance entre 1 et 1,4 GW d’électricité, ce qui correspond environ à la production d’un réacteur de centrale nucléaire française (0,9 à 1,6 GW par réacteur). Il est donc très important d’utiliser les SIA de façon la plus frugale possible, en particulier en se formant pour connaître les coûts des différents types de SIA et pour apprendre à déterminer quel est le SIA le moins consommateur de ressources permettant de résoudre son problème.

Un premier point est que de très nombreux problèmes peuvent être résolus avec des SIA plus frugaux que les SIA générative, comme les réseaux d’apprentissage profond plus légers (CNN, U‑Nets, transformers), ou les algorithmes de machine learning (forêts aléatoires, gradient boosting, clustering, réduction de dimensionalité…). Il est important d’envisager d’abord le recours à ces SIA avant de recourir aux plateformes d’IA générative. Même pour les problèmes spécifiquement liés au texte ou à l’image (classification, synthèse…), des modèles plus petits que ceux utilisés dans les plateformes d’IA générative suffisent souvent. Pour le texte, les modèles dérivés des transformers de type BERT, pré-entraînés sur des corpus biomédicaux (BioBERT, BioNLP…) sont à explorer. De même, les « petits LLMs » ou « SLM » (c’est-à-dire des modèles avec un nombre réduit de paramètres, type Llama3.2 – 1B, DistilBERT, Orca 2…) sont des alternatives à envisager. De façon générale le coût écologique augmente avec le nombre de paramètres du modèle : 110 millions de paramètres pour BioBERT, contre 1 milliard pour Llama3.2 – 1B, 7 milliards pour BioMistral-7B ou 200 milliards environ pour chacun des 8 LLM qui forment chatGPT4. 

En cas d’hésitation sur le modèle à utiliser, contacter le pôle IA & numérique de l’Inserm.

Quelles sont les données que je peux partager avec des plateformes d’IA générative externes à l’Inserm ?

Indépendamment des considérations de frugalité ci-dessus, ces plateformes ne doivent en aucun cas être utilisées avec des données sensibles, qu’elles soient uploadées/téléversées sous forme de fichiers ou saisies à la main dans le prompt. Ceci vaut quel que soit le mode d’accès (gratuit ou payant) et quel que soit le pays hébergeant ces plateformes (France, Europe ou hors Europe). Cette limitation vaut aussi quelles que soient les utilisations : assistance à la rédaction, traduction ou synthèse de documents, demande d’information sur un sujet ou génération d’images… [Voir ci-dessous pour une définition de « données sensibles ».] 

Pour la génération de code informatique : ces plateformes d’IA peuvent être utilisées pour la plupart des applications sous réserve qu’un ou une experte analyse le code généré. Cette analyse est indispensable afin de vérifier la qualité et la sécurité du code. Mais elles ne doivent jamais être utilisées pour générer du code destiné aux applications les plus sensibles (gestion des droits d’accès informatiques, cryptographie, codes destinés au traitement de données sensibles).

L’utilisation de l’API (interface de programmation d’application) d’une plateforme d’IA externe à l’Inserm pour un traitement automatique avec des données non sensibles est possible mais doit faire l’objet d’une analyse d’impact relative à la protection des données (AIPD) préalable auprès de la délégation à la protection des données de l’Inserm (DPO). Une fois les risques mesurés et appréciés, un contrat de sous-traitance doit préciser la responsabilité et la sécurité des données.

Qu’appelle-t-on « données sensibles » ?

« Toute donnée dont la divulgation publique pourrait causer un impact négatif significatif à l’utilisateur, à l’Inserm ou à ses agents et aux participants à ses recherches (patients ou volontaires sains), est à considérer comme une donnée sensible. » 

Cela recouvre donc entre autres les données de santé nominatives ou pseudonymisées quelle que soit leur origine, les données d’articles avant publication, les données d’essais cliniques avant publication, les données anonymisées issues de cohortes sans accord explicite de l’investigateur principal de la cohorte, les informations ou données stratégiques ou soumises à accord de confidentialité, les données considérées potentiellement sensibles en matière de propriété intellectuelle… En cas de doute, consulter le guide de l’ANSSI.

Si le doute persiste, contacter la délégation à la protection des données (DPO), la directrice des données (chief data officerCDO) ou le pôle IA & numérique de l’Inserm.

Puis-je régler un abonnement à un SIA externe en utilisant un moyen de paiement Inserm ?

Pour les raisons de souveraineté et de risques en lien avec la propriété intellectuelle et la sensibilité des données évoquées plus haut, l’Inserm n’acceptera pas de régler un abonnement payant à une plateforme d’IA générative externe non souveraine. Comme déjà indiqué plus haut, l’Inserm travaille actuellement à la mise à disposition progressive auprès de ses agents de systèmes d’IA utilisables dans un cadre informatique interne sécurisé qui proposeront des services comparables.

En attendant la mise en place effective de ces services internes sécurisés, l’achat d’abonnements payants à des plateformes dont l’hébergement est souverain, compatible avec la réglementation française (RGPD en particulier) et offrant des garanties sérieuses sur la confidentialité des données, sera possible de façon dérogatoire. C’est en particulier le cas de l’offre de la plateforme MistralAI actuellement. Mais rappelons que, même dans ce cas, l’utilisation de données sensibles est proscrite.

Sur le développement de systèmes d’IA à l’Inserm

Quels sont les réflexes à adopter systématiquement ?

Une partie des recommandations ci-dessus est spécifique aux grands modèles de langage génératifs hébergés sur des plateformes externes à l’Inserm. Toutefois la majorité de ces recommandations reste valable pour tous les SIA, générative ou non, y compris lorsqu’ils sont développés en interne de l’Institut. Ces recommandations sont détaillées dans la note du Comité d’éthique de l’Inserm.

Les deux points principaux sont les suivants :

  • vérification : les utilisateurs doivent mettre en place tous les outils à leur disposition pour vérifier la qualité des résultats produits par les approches d’IA utilisées et l’absence de biais dans les données utilisées pour l’apprentissage. A minima, la présence de biais doit être documentée et clairement explicitée ;
  • transparence : l’utilisation de SIA doit être explicitement indiquée et détaillée, quel que soit l’outil de SIA utilisé.

Dois-je être spécifiquement vigilant sur les données utilisées pour l’entraînement ?

Dans tous les cas, avant d’utiliser des données pour entraîner un modèle d’IA (générative ou non, réseau de neurones ou machine learning), l’utilisateur doit s’assurer que l’utilisation de ces données respecte la réglementation en vigueur (loi Informatique et libertés, RGPD, règlement européen sur l’IA). Que les données en question soient produites par l’Inserm ou pas, l’utilisateur doit s’assurer que la base en question peut être utilisée de façon licite. En cas de doute, contacter la délégation à la protection des données (DPO), la CDO ou le pôle IA & numérique de l’Inserm.

Quid du web scrapping ?

Les web scrapping (ou « collecte par moissonnage ») est une pratique utile lorsque les données nécessaires ne sont pas directement disponibles mais elle s’accompagne d’un nombre important d’enjeux éthiques, juridiques et commerciaux. Il est donc recommandé d’utiliser une API chaque fois que c’est possible. Dans tous les cas, cela ne peut se faire que dans le respect des conditions générales d’utilisation (CGU) de chaque site, du droit d’auteur et du RGPD. Nous vous invitons à consulter les préconisations de la Cnil ou la note d’INRAE sur ce sujet pour plus d’information.

Rappel des principales recommandations du Comité d’éthique et du programme Lorier de l’Inserm

Divulgation et transparence

  • Divulgation naïve : les scientifiques doivent prendre garde à la diffusion non maîtrisée de données (perte de la confidentialité des données) comme de la diffusion de données non maîtrisées (hallucinations, données non sourcées) quel que soit l’outil numérique utilisé.
  • Publication scientifique : les chercheurs doivent indiquer explicitement l’utilisation de systèmes d’intelligence artificielle (SIA) dans leurs travaux (outils, algorithmes, paramètres) et distinguer les contributions obtenues via les SIA de celles qui sont le fruit de leur activité créative. Dans les publications, une section « Utilisation de SIA » doit détailler le rôle des SIA, à l’instar des logiciels utilisés pour les analyses statistiques.
  • Administration de la recherche et fonctions supports : la transparence doit aussi concerner toutes les autres utilisations de SIA à l’Inserm, en particulier dans le secteur des ressources humaines (recrutements, traitement des carrières…).

Attribution et modèles transparents

Les scientifiques doivent publier les détails des modèles de SIA (données d’entraînement, versions) qu’ils créent ou utilisent, et assurer leur archivage à long terme pour les études de réplication. Ils doivent aussi favoriser les modèles permettant de travailler dans le respect des bonnes pratiques éthiques, en particulier la citation des sources de données, et encourager des usages académiques de la science ouverte.

Utilisation de données synthétiques

Les scientifiques de l’Inserm sont encouragés à développer l’utilisation de données synthétiques qui permettraient de limiter les risques concernant la ré-identification des participants à une recherche (anonymat au sens CNIL/G29/EDPB), tout en assurant la vérisimilitude, leur adéquation à un ensemble d’utilisation secondaires et la diversité des données, et en évitant les biais qui pourraient compromettre la recherche. Ce recours aux données synthétiques anonymes mises en qualité permet de plus dans certains cas d’enrichir les jeux de données, en particulier dans les domaines où les données réelles sont rares ou sensibles.

Vérification des résultats des SIA

La responsabilité de l’exactitude des analyses générées à l’aide de SIA incombe à ses utilisateurs et en particulier aux chercheurs, qui doivent en valider la fiabilité et identifier les biais potentiels. Les personnels sont invités à bien tester la reproductibilité et la fiabilité des modèles d’IA en 1) comparant les résultats obtenus avec différents jeux de données et 2) testant les résultats obtenus avec différents algorithmes d’IA.

Documentation des données des SIA

Les données générées à l’aide de SIA doivent être clairement identifiées pour éviter toute confusion avec des observations réelles. Les chercheurs doivent garantir la traçabilité des données des SIA utilisées dans les études.

Intégrité et équité

Les chercheurs doivent chercher à anticiper les impacts sociaux des SIA. Ils doivent se former aux règles légales, notamment en matière de protection des données et de respect des droits de propriété. Une vigilance particulière est requise pour les groupes sous-représentés ou historiquement discriminés.

Contrôle, solutions alternatives et engagement public

L’emploi des SIA en recherche a un impact environnemental. Ils doivent donc être utilisés avec parcimonie et dans des contextes d’intérêt certain. Les SIA utilisant un jeu de données réduit et des modèles avec moins de paramètres, par exemple les Small Language Models (SLMs), représentent une IA frugale et sobre. Ce développement de SIA responsables peut également contribuer à améliorer la souveraineté numérique.

Définitions des principaux termes liés à l’IA

  • SIA : système d’IA. Il s’agit d’une définition élargie d’un modèle d’IA ou d’apprentissage statistique fondée sur la capacité d’inférence. Selon l’AI Act, un SIA correspond à un « processus consistant à générer des sorties telles que des prédictions, du contenu, des recommandations ou des décisions, qui peuvent influencer l’environnement physique ou virtuel, et la capacité des systèmes d’IA à inférer des modèles ou des algorithmes, ou les deux, à partir d’entrées ou de données ».
  • IA générative : système d’IA dont l’objectif est la création autonome de contenus originaux (images, textes, sons, vidéos…) qui ressemblent à ceux qui seraient créés par un être humain. 
  • Plateforme d’IA : une plateforme web qui regroupe un ensemble intégré de modèles qui permettent de développer, entraîner ou utiliser des SIA. – Web scrapping : méthode consistant à récupérer des données sur des sites web, pour les organiser et les transformer sous une forme utilisable pour l’apprentissage.