Big data en santé

Des défis techniques et éthiques à relever

Dans le domaine de la santé, les big data (ou données massives) correspondent à l’ensemble des données disponibles sur la santé, au sens large du terme, recueillies auprès de différentes sources. L’exploitation de ces données présente de nombreux intérêts : acquisition d’une meilleure connaissance du système de soins, identification de facteurs de risque de maladie, aide au diagnostic, au choix et au suivi de l’efficacité des traitements, pharmacovigilance, épidémiologie… Désormais, le pilotage médico-économique des établissements de santé, les décisions de santé publique et même la recherche biomédicale se fondent sur l’exploitation de données massives. Néanmoins, leur collecte et leur exploitation posent encore de nombreux défis techniques, ainsi que des questions éthiques.

Dossier réalisé en collaboration avec Rodolphe Thiebaut, directeur de l’équipe Statistiques pour la médecine translationnelle (unité 1219 Inserm/Inria), enseignant à l’ISPED (Bordeaux), chef du service d’information médicale au CHU de Bordeaux et responsable de la division Sciences des données au Vaccine Research Institute (Créteil).

Les big data en santé : de quoi parle-t-on ?

En santé comme dans bien d’autres domaines, les progrès technologiques ont fait exploser la quantité d’informations recueillies à chaque instant. Ainsi, alors que dix ans ont été nécessaires pour obtenir la première séquence d’un génome humain en 2003, il faut désormais moins d’une journée pour parvenir au même résultat.
Aujourd’hui, les études génétiques destinées à rechercher des gènes de vulnérabilité associés à certaines maladies fournissent pour chaque individu des centaines de milliers de marqueurs à analyser, exploités grâce à des algorithmes complexes. De même, dans le cadre des essais cliniques, notamment en oncologie, des dizaines de paramètres cliniques, biologiques, d’imagerie et de génétique sont systématiquement recueillis. C’est aussi le cas lors du développement de vaccins : dans le cadre d’un essai précoce réalisé sur un vaccin contre le VIH, le comptage des cellules immunitaires et l’étude de leur fonctionnalité a nécessité jusqu’à 800 mesures par patient et par visite, sans compter celles relatives à l’expression des gènes des volontaires (20 000 gènes étudiés par patient et par visite). 
Etudes, essais, mais aussi registres, enquêtes, cohortes… les recueils de données sont devenues légion et conduisent à une croissance exponentielle du volume de données disponibles. Cette dynamique constitue une aubaine pour la recherche en santé, domaine dans lequel ces big data sont une source presque inépuisable de nouvelles connaissances, indispensables à l’innovation, à la sécurité des patients et aux progrès médicaux.

Des données de sources et de natures très variées

La France possède un grand nombre de bases de données relatives au domaine de la santé. Le portail Épidémiologie-France, géré par l’Alliance nationale pour les sciences de la vie et de la santé (Aviesan), propose un catalogue en ligne qui en recense plus d’un millier : bases médico-administratives, enquêtes, cohortes ou encore registres de morbidité. Cet outil a été particulièrement sollicité en 2020 dans le contexte de la crise sanitaire, pour faciliter le recensement et l’identification des bases exploitables pour mener des études sur la Covid-19.

Les bases de données médico-administratives

Ces bases offrent des données objectives et très exhaustives à l’échelle de larges populations sur le recours aux soins, les hospitalisations, le handicap, les prestations sociales ou encore l’activité́ professionnelle. Leur constitution se fonde sur le recueil systématique de données anonymisées, sauf pour les usagers ou les patients s’y opposent. Par exemple l’OCAPI, l’observatoire des caisses de l’Assurance maladie des professions indépendantes fournit des données sur la santé des indépendants ou encore le SIPAPH, système d’information partagé pour l’autonomie des personnes handicapées permet de mieux connaître la situation des personnes en situation de handicap. 

👉 Consulter la liste des bases de données médico-administratives sur Épidémiologie-France

Mais la plus riche des bases médico-administratives françaises est le Système national des données de santé (SNDS),créé en 2016. Il met à disposition ungrand nombre de données afin de favoriser les études, recherches ou évaluations qui présentent un caractère d’intérêt public : information sur la santé de la population, mise en œuvre de politiques de santé, connaissances relatives aux dépenses de santé, information sur les activités des professionnels et des établissements, amélioration de la prise en charge ou encore veille sanitaire. Géré par la Caisse nationale de l’Assurance maladie des travailleurs salariés (CNAMTS), il inclut notamment les données du SNIIRAM (Système national d’information interrégimes de l’Assurance maladie). Ce dernier recense tous les remboursements effectués par l’Assurance maladie pour chaque cotisant, tout au long de sa vie (biologie, médicaments, ambulances, consultations avec dates et noms des professionnels de santé vus, codes du type de maladie dans certains cas…). Le SNDS inclut également les données des hôpitaux (PMSI), les causes médicales de décès (données du CépiDC, Inserm), les données relatives au handicap des Maisons départementales pour les personnes handicapées– (données de la CNSA) et un échantillon de données en provenance des organismes d’assurance maladie complémentaire.

Une liste d’organismes de service public publiée par décret bénéficie d’un accès permanent à tout ou partie du SNDS dans le cadre de leurs missions. Par ailleurs, toute personne ou structure, publique ou privée, à but lucratif ou non, peut demander une autorisation de la CNIL pour y accéder dans le but de réaliser un travail d’intérêt public.

L’exploitation des données du SNDS donne lieu à de nombreuses études. C’est par exemple en s’appuyant sur cette base qu’il a pu être démontrer que l’espérance de vie des personnes suivies pour des troubles psychiques sévères est en moyenne réduite de 16 ans chez les hommes et de 13 ans chez les femmes. Si la tendance était déjà connue, c’est la richesse des données du SNDS qui a permis d’objectiver ce phénomène.

Découvrir d’autres exemples de travaux réalisés grâce au SNDS

Les registres de morbidité

Ces registres, régionaux ou nationaux, sont constitués par le recueil de données médicales anonymisées auprès de populations cibles, pour documenter l’incidence et l’évolution de maladies et mieux les étudier. Ils s’intéressent par exemple aux cancers, aux maladies cardiovasculaires et neurovasculaires, aux malformations congénitales, aux maladies rares… 

👉 Consulter la liste des registres de morbidité sur Épidémiologie-France

Les bases de données issues d’enquêtes

Des enquêtes en santé permettent de constituer d’autres bases de données, qui visent explorer différentes dimensions médicales, sociales ou psychologiques, dans des populations spécifiques volontaires ou en population générale. Il peut s’agir d’enquêtes ponctuelles ou de suivis à plus ou moins long terme, sur une durée limitée.
Par exemple, depuis près de 30 ans, des Enquêtes nationales périnatales (ENP) sont réalisées tous les 5 à 6 ans par l’Inserm, pour fournir des données sur l’état de santé des mères et des nouveau-nés, sur les pratiques médicales pendant la grossesse et l’accouchement, et les caractéristiques démographiques et sociales des femmes et des familles. La dernière enquête a été conduite en 2021.

👉 Consulter la liste des bases de données issues d’enquêtes sur Épidémiologie-France

Les cohortes

Les cohortes sont des outils puissants pour la recherche. Elles rassemblent jusqu’à plusieurs centaines de milliers de personnes qui sont suivies sur de longues périodes pour répondre à des questions scientifiques. Elles permettent la collecte de très nombreuses données, de nature extrêmement diverse. 

Plusieurs grandes cohortes ont été conçues en partenariat avec l’Inserm : La cohorte Constances, inclut environ 200 000 adultes de 18 à 69 ans qui consultent dans des centres d’examens de santé de la Sécurité sociale. La cohorte I‑Share est constituée plus de 20 000 étudiants des universités. L’observatoire MAVIE étudie les accidents de la vie quotidienne chez plus de 25 000 volontaires internautes. Quant à NutiNet-Santé, elle récolte une multitude de données sur le mode de vie, la santé et les habitudes alimentaires de 500 000 Français. 

Il existe également des cohortes de plus petite taille, mais pour lesquelles un très grand nombre de paramètres sont collectés pour chaque participant. Ainsi, la cohorte Memento est utilisée pour explorer les déterminants et l’évolution de la maladie d’Alzheimer débutante, ainsi que les déficits cognitifs, chez 2 300 personnes suivies tous les six mois. Outre un examen clinique complet, les volontaires bénéficient d’évaluations neuropsychologiques et psychiatriques, d’examens d’imagerie cérébrale (IRM et TEP), de prélèvements biologiques. Ils répondent également à des questionnaires sur leur mode de vie et leurs interactions sociales et familiales.

Découvrir d’autres cohortes Inserm


Les cohortes Covid-19

Un très grand nombre de cohortes ont été constituées en 2020 et 2021 pour étudier la Covid-19, ses formes, son évolution, son épidémiologie, la protection conférée par les vaccins, le retentissement psycho-social de la crise sanitaire…. par ailleurs, des cohortes déjà constituées autour d’autres sujets ont été sollicitées pour un recueil de données complémentaires en lien avec cette nouvelle maladie virale. Ces travaux ont généré une quantité phénoménale de données, analysées en un temps record.

Dès mars 2020, l’Inserm a mobilisé quatre cohortes nationales – E3N/E4N, Constances, Nutrinet santé et Elfe-Epipage – pour recueillir des informations auprès de 270 000 personnes et collecter plus de 88 000 échantillons de sang à analyser (projet Sapris). L’Inserm a également mis en place la cohorte EpiCov, constituée de 350 000 personnes tirées au sort dans une base de l’Insee, pour réaliser un suivi de leur état de santé et de leur conditions de vie en lien avec la pandémie, ainsi que la cohorte French Covid-19 qui a inclus plus de 2 000 patients hospitalisés, pour documenter ces cas et apprendre à prédire le risque d’aggravation associée aux infections par le Sars-CoV‑2. Une centaine de variables ont ainsi pu être documentées, parmi lesquelles la charge virale des patients, leurs fréquences respiratoire et cardiaque, le délai entre l’apparition de leurs symptômes et leur hospitalisation, leurs besoins en oxygène, leur indice de masse corporelle, des marqueurs du fonctionnement de leur foie et de leurs reins, des marqueurs de l’inflammation, ou encore leurs radios et scanners… L’Inserm a également coordonné la cohorte ANRS Cov-Popart, mise en place pour permettre d’étudier la réponse immunitaire induite par la vaccination contre la Covid-19 et sa persistance chez des personnes atteintes de troubles immunitaires. Enfin, citons la cohorte Confins, conçue pour étudier l’impact de la Covid-19 sur le bien-être et la santé de la population.



France cohortes accompagne les responsables de cohortes

Les cohortes font face à de nombreux enjeux liés aux données massives de santé : protection de la vie privée, partage des données, outils techniques de suivi et d’analyse, pérennisation du suivi car la valeur d’une cohorte croit au cours du temps. Une infrastructure nationale a été créée pour faire face à ces défis : France cohortes. Son objectif est de développer et mutualiser un centre de ressources et de services pour les chercheurs, afin de faciliter le suivi et la valorisation de leurs cohortes. Treize grandes cohortes sont associées à sa construction.

Pour en savoir plus sur France Cohorte


De nouveaux modes de collecte

Les modalités de collecte des données évoluent avec l’utilisation croissante d’objets connectés. Des pacemakers, des tensiomètres, des balances, des oxymètres ou encore certains glucomètres… transmettent désormais automatiquement des données à des plateformes surveillées par des professionnels de santé. Ces données sont stockées et analysées. D’autres objets connectés permettent par exemple de suivre la diffusion d’une maladie infectieuse. Ainsi, dans le but d’améliorer la compréhension de la dissémination des staphylocoques au CHU de Lyon, des patients et professionnels ont été́ équipés de capteurs qui enregistrent tous leurs contacts sur une période de six mois. Ces modes de collectes se heurtent toutefois à des problèmes d’acceptabilité au regard de la vie privée ou encore de sous-équipement en objets connectés dans certains groupes de la population, comme chez les personnes âgées.

Le big data en santé, quelles utilités ?

Organismes de recherche et entreprises, à but lucratif ou non, scientifiques, médecins, et industriels… : les big data intéressent de très nombreux acteurs du monde de la santé car elles permettent de réels progrès médicaux.

Suivre les populations et orienter les politiques de santé publique

L’utilisation des big data permet de mieux connaître les malades, les consommations de soins, et la santé de la population en général. Pour orienter les politiques de santé publique, l’agence nationale Santé publique France traite et analyse des données issues de systèmes de surveillance, d’enquêtes, de bases de données médico-administratives… Ce travail permet de suivre l’évolution des connaissances, des comportements et des attitudes de santé des Français pour piloter l’action publique. Il permet aussi la surveillance de nombreuses pathologies en France, dans le but de connaitre l’évolution de ces maladies et de détecter des événements sanitaires inattendus.

Des courbes de croissance qui reflètent les données actuelles

En avril 2018, les courbes de croissance des enfants qui figurent dans les carnets de santé ont été actualisées à partir d’un million et demi de mesures obtenues chez plus de 230 000 enfants français. Ces nouvelles courbes ont été obtenues par l’analyse de ces big data, combinée à une modélisation mathématique. Elles correspondent mieux aux données anthropométriques pédiatriques actuelles.

Lire notre article : Les big data au service du suivi de la croissance des enfants

Mieux prévenir et prendre en charge les maladies

Les données multidimensionnelles récoltées à long terme sur de larges populations, permettent d’identifier des facteurs de risque pour certaines maladies comme le cancer, le diabète, l’asthme ou encore les maladies neurodégénératives. Ces facteurs servent ensuite pour construire des messages de prévention, et mettre en place des programmes à destination des populations à risque. 

Les big data permettent en outre le développement de systèmes d’aide au diagnostic et d’outils qui permettent la personnalisation des traitements. Ces systèmes se fondent sur le traitement de grandes masses de données cliniques individuelles. Les big data peuvent également permettre de vérifier l’efficacité d’un traitement. Par exemple, dans le domaine des vaccins, les immunologistes mesurent aujourd’hui des centaines de paramètres au cours des essais cliniques : comptages cellulaires, fonctionnalité cellulaire, expression de gènes d’intérêt... alors qu’il y a quelques années, on se limitait à la concentration des anticorps d’intérêt. À terme, cette évolution, les données massives qu’elle génère et la capacité à les analyser, pourrait permettre de vérifier qu’une vaccination a bien fonctionné au bout d’une heure seulement, à partir d’une micro goutte de sang. 

Prédire les épidémies

Disposer de nombreuses informations sur l’état de santé des individus dans une région donnée permet de repérer l’élévation de l’incidence de maladies ou de comportements à risque, et d’alerter les autorités sanitaires. 

En France, depuis 1984, le réseau Sentinelles suit plusieurs maladies infectieuses et alerte sur les épidémies grâce à la contribution de 1 300 médecins généralistes et d’une centaine de pédiatres répartis sur tout le territoire. Ces derniers rapportent au moins une fois par semaine le nombre de cas observés pour sept maladies transmissibles (diarrhée aiguë, maladie de Lyme, oreillons, syndromes grippaux, urétrite masculine, varicelle et zona) ainsi que pour les actes suicidaires. Les données sont transmises, via un réseau sécurisé, auprès de l’institut Pierre Louis d’épidémiologie et de Santé publique France.

Concernant la Covid-19, Santé publique France actualise par ailleurs un tableau de bord quotidien avec les indicateurs clés de suivi de l’épidémie : cas confirmés, décès, taux de positivité, nouvelles hospitalisations, admissions en soins critiques, personnes complètement vaccinées, contacts identifiés, doses de vaccins distribuées, réservistes mobilisés… Ces données sont utilisées par des chercheurs pour réaliser des modélisations et proposer des mesures sanitaires adaptées.

À l’échelle mondiale, le site HealthMap a pour objectif de prédire la survenue d’épidémies à partir de données issues de nombreuses sources. Développé par des épidémiologistes et des informaticiens américains, ce site fonctionne en collectant les notes de départements sanitaires et d’organismes publics, les rapports officiels, des données internet… Le tout est mis à jour en continu pour identifier des menaces sanitaires et alerter les populations. Citons aussi le simulateur GLEAM, destiné à prédire la dissémination d’une épidémie en particulier, en exploitant les données de transport aérien. 

Georgios Gropetis, responsable du centre de calcul de l'UMRS 707 © Inserm/P. Latron
Georgios Gropetis, responsable du centre de calcul du réseau Sentinelles (plateforme nationale de recherche et de veille en médecine générale) © Inserm/P. Latron 

Analyser l’usage des médicaments et leurs risques

Autre outil de pilotage des politiques publiques en France : EPI-Phare créé en 2018 par l’Agence nationale de sécurité des médicaments (ANSM) et la Caisse nationale d’assurance maladie. À partir des données du SNDS, ce groupement scientifique mène des études pharmaco-épidémiologiques qui apportent des informations sur l’usage, le mésusage, l’efficacité et les risques des médicaments. EPI-Phare a par exemple étudié l’impact de la pandémie Covid-19 sur la consommation de médicaments des Français. Lors de la première vague, ce travail avait permis de constater un retard de mises sous traitement des nouveaux patients atteints de maladies chroniques et une réduction drastique des soins effectués par des professionnels de santé (injection intraoculaire de la DMLA, explorations fonctionnelles et imagerie médicale effectuées par exemple pour des diagnostics de cancer…). De même, un déficit de vaccinations avait été constaté chez les nourrissons.

Par ailleurs, l’analyse des données issues de cohortes ou des bases médico-économiques sur le long terme peut permettre d’observer beaucoup de phénomènes, et notamment de faire des rapprochements entre des traitements et la survenue d’événements en santé. Cette pratique permet notamment de repérer des événements indésirables graves et d’alerter sur certains risques. 

Les big data en santé : des défis à relever

Disposer de capacités de stockage suffisantes

Les énormes volumes de données désormais disponibles soulèvent des défis techniques concernant leur stockage et les capacités d’exploitation

Les organismes de recherche disposent tous de serveurs de stockage et de supercalculateurs. Dans la plupart des cas, compte tenu de leur coût, ces plateformes sont mutualisées. C’est par exemple le cas du Mésocentre de calcul intensif aquitain (MCIA, Bordeaux), partagé par les universités de Bordeaux et les laboratoires CNRS, Inra, Inria et Inserm de la région.

Standardiser les données

Autre problématique : les données massives sont assez fragmentées et les informations collectées sont de plus en plus hétérogènes de par :

  • leur nature : génomique, physiologique, biologique, clinique, sociale…
  • leur format : texte, valeurs numériques, signaux, images 2D et 3D, séquences génomiques…
  • leur dispersion au sein de plusieurs systèmes d’information : établissements de soin, laboratoires de recherche, bases publiques…

Pour rendre possible leur traitement et leur exploitation, ces informations complexes doivent être acquises de manière structurée et codées, avant de pouvoir être intégrées dans des bases ou des entrepôts de données. Des standards se développent, tel que celui de l’i2b2 (Informatics for Integrating Biology and the Bedside), mis au point à Boston et désormais utilisé au CHU de Bordeaux ou à l’APHP. Grâce à ces standards, les centres de soins sont mieux armés pour compiler toutes les données collectées (pharmacie, biologie, imagerie, génomique, médico-économique, clinique...) dans des entrepôts de données biomédicales, interrogeables par les chercheurs via des interfaces web. Ces standards ont par exemple été utilisés pendant la pandémie de Covid-19 pour exploiter des données de dossiers électroniques de patients par le consortium international 4CE, formé entre 96 hôpitaux dans cinq pays dont la France. Les contributeurs ont utilisé les plateformes i2b2 ou Observational Medical Outcomes Partnership (OMOP) pour disposer de modèles communs de données. L’objectif était de mettre à disposition des professionnels de santé des informations cliniques et épidémiologiques à jour.

De nombreuses équipes de recherche travaillent également sur des plateformes intégrées, pour apparier des bases et agréger leurs données avec celles de cohortes. Ainsi, le projet Hygie, conduit par l’Institut de recherche et de documentation en économie de la santé, apparie les bases SNIIRAM et SNGC (Système national de gestion des carrières de l’Assurance retraite). Ce travail permet de constituer un système d’information sur les indemnités journalières de sécurité sociale pour un échantillon de 800 000 personnes. Il est utilisé pour enrichir les fichiers de la cohorte Constances. 

Vue d'écran et vérification de la collecte et de la cohérence des données prélevées sur les patients © Inserm/Delapierre, Patrick
Vue d’écran et vérification de la collecte et de la cohérence des données prélevées sur les patients © Inserm/P. Delapierre

Analyser et interpréter les données

Des programmes et des algorithmes informatiques et statistiques de plus en plus complexes s’avèrent nécessaires pour analyser ces grands volumes d’informations. Les chercheurs s’appuient notamment sur des systèmes d’intelligence artificielle : des algorithmes complexes, capables d’apprendre par eux-mêmes à partir d’un premier jeu de données, puis d’analyser « seul » de nouvelles informations.

Le plan France médecine génomique 2025 prévoit l’analyse du génome de milliers de patients chaque année sur des plateformes de séquençage nationales. Cette activité va générer une quantité inouïe de nouvelles données à exploiter. Dans ce cadre, un collecteur analyseur de données (CAD) est en cours de développement pour analyser et organiser les données, afin de les rendre interprétables par les cliniciens et les chercheurs. Le but est d’aider les médecins à utiliser ces données pour mieux soigner, et de permettre aux chercheurs de se servir des données collectées dans le cadre du soin pour conduire leurs travaux. Cette plateforme devrait offrir une puissance de calcul inédite à ce jour, un accès à des bases multiples et une capacité de stockage qui atteindra progressivement quelques dizaines de pétaoctets (1 Po= 1015 octets). Il sera hébergé dans deux des quatre centres de calcul nationaux : le Centre informatique national de l’Enseignement supérieur à Montpellier, et le Très grand centre de calcul du CEA, en Ile-de-France. Les services proposés excluront la possibilité de copie ou d’extraction des données non analysées. Et un comité d’éthique validera les projets.

Le Health Data Hub : partager les données pour faciliter leur analyse

Face au nombre considérable de données disponibles, une plateforme des données de santé appelée Health Data Hub a été créée en 2019. Destinée à faciliter le partage des données de santé issues de sources très variées pour servir les projets de recherche, cette structure publique associe plus de 50 membres qui représentent l’État, les caisses d’Assurance maladie et des organismes d’assurance maladies complémentaires, des organismes de recherche (dont l’Inserm) et d’enseignement, des agences de santé, des établissements et des professionnels de santé, des industriels et des usagers.

Sa principale mission est de mettre à disposition de porteurs de projets un catalogue de bases de données et les moyens informatiques pour les exploiter. La base principale est le SNDS mais le « catalogue » du Health Data Hub est évolutif et se construit progressivement : des échanges sont en cours avec de nombreux partenaires pressentis tels que Santé Publique France, l’AP-HP, l’Inserm, l’Université de Bordeaux, Unicancer... Le Health Data Hub contribue également à diffuser des normes de standardisation pour l’échange et l’exploitation des données de santé.

Grâce à cette plateforme technologique, les porteurs de projet de recherche peuvent mobiliser des sources de données volumineuses et faire tourner des algorithmes de recherche complexes qui font appel à l’intelligence artificielle. Parmi les projets actuellement menés à partir du Health Data Hub, citons le projet BactHub, conduit par l’Inserm et de l’AP-HP, qui vise à créer une base de données unique sur les infections bactériennes dans le but de mieux comprendre l’antibiorésistance et de lutter plus efficacement contre. Le projet Tarpon (Inserm/CHU de Bordeaux) analyse quant à lui les motifs d’entrée aux urgences, pour mieux les connaître.

Le Health Data Hub s’ouvre par ailleurs à l’international. En 2021, il a réuni un consortium composé d’une quinzaine d’acteurs européens majeurs, dont les plateformes nationales de données de santé de plusieurs États membres, pour répondre à un appel à candidatures de la Commission européenne en vue de la constitution d’un espace européen des données de santé.

Protéger les données personnelles des citoyens

En Europe, les données de santé sont régies par le Règlement général sur la protection des données (RGPD), appliqué depuis 2018. Il garantit des droits pour chaque individu à s’opposer à la collecte de données le concernant, que ce soit lors d’enquêtes, d’études ou sur internet, ainsi qu’à leur partage dans le cas où il en a autorisé la collecte. Le RGPD permet aussi d’obtenir l’effacement de ses données à tout moment. Il responsabilise les administrateurs de données et renforce les sanctions en cas de non/mauvais respect des dispositions du règlement. En France, la CNIL est chargée de contrôler son application.

Ainsi, lors d’un essai clinique, un consentement est nécessaire avant le recueil de données de santé. De même, tout chercheur ou clinicien qui utilise des données du soin doit en informer le patient concerné et faire une déclaration auprès de la CNIL.


Des questions sur le traitements des données à l’Inserm ?

Parmi les obligations inscrites dans le RGPD on trouve en outre celle de nommer un DPO (Data Protection Officer ou délégué à la protection des données), chargé de piloter la mise en œuvre de la conformité au règlement dans un établissement. L’Inserm, pour qui les données à caractère personnel sont un enjeu de premier plan en tant que matériau de recherche de base pour les scientifiques, dispose de son DPO.

Contacter le DPO de l’Inserm


Des questions éthiques en lien avec les données massives se posent régulièrement : faut-il conserver toutes les données ? Faut-il les mutualiser ? Qui doit les gérer et sous quelles conditions les partager ? Comment faire en sorte que des géants du web tels que Google, Apple, Facebook et Amazon ne s’approprient pas une partie d’entre elles ? Les enjeux sont de taille : risque de divulgation de la vie privée et conséquences pour la vie sociale, perte de confiance dans la puissance publique et la confidentialité de la recherche, harcèlement publicitaire... Ces problématiques font régulièrement l’objet d’avis de la part de comités d’éthiques, dont le Comité consultatif national d’éthique (CCNE). À l’Inserm, un groupe de réflexion a été mis en place en réaction aux interrogations soulevées par la décision de confier l’hébergement des données du Système national des données de santé (SNDS) rassemblées par le Health Data Hub à la société Microsoft. Le groupe a rapidement élargi sa réflexion à un ensemble plus vaste de questions éthiques soulevées par la collecte et le traitement de données dites « massives » pouvant s’apparenter de près ou de loin à des données de santé.

Pour aller plus loin