Finalité, intérêt et objectifs d’un plan de gestion des données
Un PGD, c’est quoi ?
Un plan de gestion de données (PGD), ou Data Management Plan (DMP), est un document qui explique la manière dont les données de recherche sont produites, collectées et traitées. Le PGD aide à organiser et à anticiper toutes les étapes du cycle de vie de la donnée : depuis sa création ou sa collecte, jusqu’à son partage et son archivage. C’est un document unique et synthétique qui explique ce qui est prévu pour chaque jeu de données, à chaque étape de son cycle de vie. Par exemple :
- S’agit-il de données créées ou collectées ?
- Quels seront les métadonnées et standards utilisés ?
- Dans quel entrepôt seront déposées les données et sous quelle licence seront-elles partagées ?
- Quel volume de données sera archivé de façon pérenne ?
Le PGD aborde aussi les aspects budgétaires, éthiques, juridiques ainsi que les responsabilités et les aspects liés à la sécurité des données.
Un PGD, à quoi ça sert ?
Le plan de gestion de données assure une bonne compréhension des données, de leur accès et de leur réutilisation. Il facilite la reproductibilité des recherches. Le PGD sert de guide tout au long du projet. C’est également le document de référence une fois le projet terminé.
Le PGD concerne-t-il également le domaine administratif ?
Non. Le PGD concerne les données « métier » et scientifiques des projets de recherche, pas les données financières ou logistiques (bons de commande par exemple) qui appartiennent au système d’information.
Pourquoi utiliser le modèle de PGD de l’Inserm ?
L’ANR et la Commission européenne, notamment, proposent leurs propres modèles de PGD, mais tous les financeurs ne le font pas. Généralement génériques, leurs modèles ne tiennent pas compte des spécificités des domaines et des disciplines scientifiques. Le modèle de l’Inserm met l’accent sur les aspects propres aux sciences de la santé, ce qui permet d’approfondir certaines problématiques. Il peut être utilisé pour des projets financés par l’Institut comme par des entités externes à l’Inserm.
En quoi le modèle de PGD de l’Inserm diffère-t-il des autres ?
Le modèle de l’Inserm reprend la structure et les éléments de ceux de l’ANR et de l’Institut Pasteur. Il met l’accent sur les problématiques liées aux sciences de la santé, notamment l’aspect juridique, le traitement de données personnelles, et les éventuelles question éthiques soulevées par la recherche sur l’humain. Il est compatible avec les exigences des différents financeurs.
Comment rédiger un plan de gestion des données
Quels sont les acteurs du PGD ?
Toutes les personnes qui ont une responsabilité dans la gestion des données doivent être nommées. Qu’il s’agisse de la collecte des données, de leur traitement, leur analyse, leur stockage, leur anonymisation, de la rédaction des différentes versions du PGD…
Qui rédige le PGD ? À qui revient la responsabilité finale du plan ?
C’est au porteur du projet (PI) que revient la responsabilité finale du PGD. Il peut déléguer tout ou partie de la rédaction à des membres de son équipe, sur la base d’informations qu’ils ne possèdent pas forcément mais qu’il leur faudra collecter.
Quand faut-il remplir le PGD ?
Une version initiale est souvent exigée dès le démarrage du projet (au cours de 6 premiers mois). Cette version donne les grandes lignes et les points qui seront traités au cours du projet. Puis, une fois le projet terminé, une version finale du PGD fait office de référence. Entre ces deux versions, il est conseillé (parfois même exigé par les financeurs) de fournir au moins une version intermédiaire. D’une manière générale, on considère comme bonne pratique de mettre à jour régulièrement le PGD.
Quand doit-on se poser les questions de data management ?
Les questions relatives à la gestion des données sont à se poser en amont de la rédaction du projet de recherche. Cette réflexion permet parfois de mieux structurer le projet.
Doit-on répondre à toutes les questions dès la première version ?
Non. Le PGD évolue dans le temps. Il explique la manière dont les données de recherche sont obtenues et traitées tout au long de leur cycle de vie. Il faut s’interroger sur la gestion des données avant, pendant et après le projet.
Certaines questions posées dans le PGD ne trouvent de réponse qu’en cours de projet. Il n’est donc pas nécessaire d’avoir toutes les réponses pour débuter le plan. L’essentiel est d’identifier les sujets sur lesquels il sera nécessaire de se pencher pendant le projet, et d’indiquer de quelle manière ils seront étudiés.
Faut-il établir un circuit de validation du document ?
L’Inserm ne requière pas la signature officielle d’un représentant désigné. Il convient toutefois de s’assurer de la procédure imposée par le financeur ou le fournisseur de service demandant un PGD.
Peut-on être accompagné dans la rédaction du PGD ?
L’Inserm travaille à la mise en place d’une cellule d’accompagnement pour assister les chercheurs sur tous les sujets liés à la gestion de leurs données (dont la rédaction du PGD). Dans l’attente, on peut écrire à l’adresse support-pgd@inserm.fr
Doit-on obtenir une licence pour un PGD ?
La licence n’est pas obligatoire. Elle sert surtout à définir les règles de partage, de réutilisation et de modification du plan. Elle est donc importante lorsqu’on prévoit de rendre le PGD public à l’issue du projet.
Il n’est toutefois pas forcément nécessaire d’utiliser de licence dès les premières versions du plan, même si on prévoit d’en utiliser une pour la version finale. Dans ce cas, dans le champ « licence » de la version initiale du PGD, les rédacteurs peuvent mentionner qu’ils envisageront éventuellement de protéger leur plan par une licence. Ils pourront ainsi modifier le PGD final, une fois qu’il aura été décidé de rendre le plan public, et que les conditions de partage, ainsi que le type de licence correspondant le mieux aux besoins, auront été définies.
L’Inserm recommande d’utiliser une licence libre Creative Commons.
Le plan de gestion des données et son environnement technique et juridique
Le PGD s’articule-t-il aux services informatiques proposés pour les données ?
Le PGD peut mentionner l’usage du cahier de laboratoire électronique et/ou d’un entrepôt de données (via un identifiant de jeu de données, par exemple).
À terme, des liens au sein de l’outil de rédaction du PGD permettront de demander des services autour de la donnée (comme le stockage), mais il n’est pas prévu que des informations remontent de ces services vers l’outil de rédaction du PGD.
Le PGD est-il soumis à la réglementation des données personnelles ?
Est définie comme donnée personnelle « toute information se rapportant à une personne physique identifiée ou identifiable […], directement ou indirectement […] » (article 4 du RGPD).
Le traitement de données personnelles est soumis au règlement général sur la protection des données (RGPD) et à la loi informatique et libertés (LIL). Les questions concernant le cycle de vie des données personnelles sont communes au PGD et à la protection des données personnelles. Le délégué à la protection des données (DPD ou DPO en anglais) de votre organisme vous guidera dans la mise en conformité avec le RGPD et la LIL.
Le PGD permet-il d’avoir des solutions techniques pour stocker ses données ?
Rédiger un PGD ne donne pas directement ou automatiquement accès à une solution technique. Cela permet en revanche de clarifier la plupart des éléments qui permettront de faire ensuite une demande d’hébergement. Lors de la rédaction du PGD, il faut s’interroger :
- la localisation des supports de stockage (France, Europe…) ;
- les procédures de sauvegarde et leur fréquence ;
- la sécurisation, la stratégie et la gestion des accès (confidentialité, données personnelles…) ;
- le volume de données envisagées ;
- les coûts financiers (humain et technique) pour héberger, sauvegarder et sécuriser les données ;
- le devenir des données (conservation, destruction).
Tous ces éléments permettent ensuite de chercher un hébergement adapté aux besoins de vos données.