France Cohortes : comment pérenniser un outil de recherche exceptionnel

Avec le projet France Cohortes, piloté par les instituts thématiques Santé publique et Technologies pour la santé, l’Inserm va mutualiser des moyens techniques et humains au service de onze de ses grandes cohortes. L’ambition ? Leur permettre de continuer à jouer un rôle clé dans la recherche en épidémiologie et en santé publique. 2019 a été une année de réflexion et de co-construction pour tracer les contours de la future entité. Elle comprendra une infrastructure informatique de haut niveau et une unité de service. Cette dernière réunira des fonctions supports transversales et des fonctions métiers spécifiques, permettant de faire bénéficier les cohortes de compétences en data science, qualité, expertise juridique et réglementaire…

Un article à retrouver dans le rapport d’activité 2019 de l’Institut

Que serait la recherche en santé publique sans les cohortes ? Celles-ci suivent pendant des années, voire des décennies, des participants qui se comptent par milliers (220 000 pour Constances, la cohorte en population générale la plus importante en taille). Indicateurs essentiels sur la santé des populations et outils indispensables pour explorer des pathologies complexes, elles sont régulièrement enrichies de données recueillies via des questionnaires papier ou en ligne, des examens biologiques, des objets connectés, des capteurs d’activité physique, voire des indices de pollution environnementale. 

Des domaines clés pour les politiques de santé publique

Passé à la moulinette de puissants outils d’analyse, le gisement de données issues des cohortes permet d’approfondir la connaissance de domaines clés pour les politiques de santé publique, comme les effets de l’alimentation et de l’environnement sur la santé, les biomarqueurs prédictifs du cancer de la vessie, la prise en charge des patients atteints d’une pathologie psychiatrique, ou encore les facteurs déclenchants de la maladie chronique rénale. À titre d’exemple, ce thème a justifié la création de la cohorte clinique CKD-Rein, qui permet le suivi de patients porteurs d’une maladie chronique du rein, afin d’explorer les causes de l’apparition d’une insuffisance rénale, de ses complications et d’évaluer les rapports coût-efficacité des différentes stratégies de traitement. 

Ces outils exceptionnels, France Cohortes souhaite les pérenniser et les faire monter en gamme au-delà de 2025, année où s’arrêtera le financement actuel par le programme d’investissement d’avenir (PIA). « Nous ciblons dans un premier temps onze cohortes, précise Leïla Ben Jannette, cheffe de projet Structuration de France Cohortes, et travaillons sur deux volets : une infrastructure informatique de haut niveau pour collecter, stocker, analyser et apparier leurs données, et une unité mixte de service (UMS) qui leur proposera des expertises difficiles à mobiliser pour une seule cohorte. » L’UMS aura aussi un rôle d’animation scientifique, pour favoriser les échanges et le partage d’expérience. Elle sera gérée par l’Inserm en cotutelle avec Sorbonne Université, l’université de Paris, l’université Paris-Saclay et l’Institut national d’études démographiques (Ined).

Un outil informatique aux standards de sécurité très élevés

L’infrastructure informatique, conçue par les équipes du département des systèmes d’information (DSI) de l’Inserm, est la pierre angulaire du projet. Il est prévu qu’elle succède aux systèmes d’information mis en place par chaque cohorte. Sammy Sahnoune, directeur du DSI, en décrit les grandes lignes : « Nos serveurs seront installés sur deux salles, dans des emplacements sécurisés au Centre informatique national de l’enseignement supérieur à Montpellier. Ils seront reliés au réseau haut débit Renater. Cette architecture, dotée d’une grande plasticité et permettant les changements d’échelle, sera dimensionnée pour des bases de données massives : certaines cohortes qui gèrent de l’imagerie médicale stockent des téraoctets de données. » L’infrastructure et sa solution applicative respecteront des standards très élevés en matière de sécurité des données, tant pour se conformer à la réglementation (Règlement général sur la protection des données, Commission nationale de l’informatique et des libertés, Système national des données de santé...) que pour préserver la confiance des participants des cohortes. Elle aura aussi la capacité de s’adapter aux évolutions régulières de cette réglementation. 

France Cohortes obtiendra également la certification Hébergement des données de santé (HDS) et une homologation au référentiel de sécurité du Système national des données de santé (SNDS). Un sésame nécessaire pour récupérer des informations issues du SNDS, véritable mine d’or qui recense notamment l’intégralité des remboursements de la Sécurité sociale et des séjours hospitaliers. Or, aujourd’hui, il est nécessaire que toutes nos cohortes soient conformes au référentiel de certification HDS. Aussi, pour pouvoir apparier ses données avec celles du SNDS, Constances est hébergée au Centre d’accès sécurisé aux données (CASD), un autre centre informatique offrant toutes les garanties de sécurité. En attendant la disponibilité de la nouvelle infrastructure, d’autres cohortes vont adopter la même formule. 

Une migration cohorte par cohorte, sur plusieurs années

C’est donc une opportunité scientifique qui s’ouvre aux chercheurs, comme l’explique Pascale Gerbouin, responsable du service technique de la cohorte E3N-Générations (130 000 participants) : « Nous allons pouvoir recueillir de manière automatisée des informations qui valident ou précisent celles dont nous disposons : cette personne est-elle bien atteinte d’un cancer ? Celle-ci a un diabète, mais est-ce un type 1 ou 2 ? Quelles sont les causes exactes des décès ? Aujourd’hui, ces investigations menées par d’autres canaux sont coûteuses et chronophages. »

La migration vers cette infrastructure devrait être menée cohorte par cohorte, sur plusieurs années, selon la taille et la complexité de leur système d’information. « Chacune a créé le sien pour interroger les participants, exploiter les questionnaires, analyser les données, explique Sammy Sahnoune. Pour évoluer vers un système d’information unique et des outils mutualisés, nous allons traiter chaque migration comme un projet à part entière. » Le cas des cohortes les plus anciennes et les mieux organisées, en particulier, mérite un examen approfondi : comment les intégrer dans le système sans remettre en cause des solutions qui marchent et qui ont demandé des années de travail ? 

Unité mixte de service : pérenniser des compétences à forte valeur ajoutée

L’unité mixte de service (UMS), second volet du projet, travaillera pour toutes les cohortes et comptera plusieurs dizaines de collaborateurs de haut niveau : data scientists et data managers, qualiticiens, spécialistes de la réglementation sur les données… Là encore, l’objectif est de mutualiser et de consolider les compétences de haut niveau. Actuellement, les cohortes ont du mal à recruter et à fidéliser sur ces métiers en tension : elles ne peuvent proposer que des contrats à durée déterminée, d’où un risque récurrent de perte d’expertise.

« La cohorte E3N-Générations ne dispose pas en interne de compétences juridiques, illustre par exemple Pascale Gerbouin. Cela m’impose parfois des semaines, voire des mois, d’attente pour valider une convention, un registre de traitement ou un transfert de données. Si demain des collaborateurs de l’UMS m’apportent en peu de temps des réponses fiables, notre tâche sera grandement facilitée. » Le cadre de l’UMS est plus souple que celui de l’outil informatique, et les services qu’elle offrira ne sont pas complètement arrêtés. Plusieurs groupes de travail se penchent sur le sujet en 2020 dans le cadre d’une démarche de co-construction. Pour les cohortes, les enjeux sont majeurs : mieux accompagnées, elles auront par exemple plus de chances de remporter les appels à projets nationaux ou internationaux auxquels elles candidatent. 

L’animation scientifique, une attente forte des cohortes

Un point est déjà acquis : l’UMS aura une activité d’animation scientifique au travers de rencontres régulières. Marcel Goldberg, co-investigateur de Constances, en attend beaucoup : « Faire vivre une cohorte, c’est se poser forcément les mêmes questions : comment limiter les abandons de participants ? Quels sont les avantages et inconvénients des divers outils de recrutement ? Comment tenir compte de l’effet de sélection, c’est-à-dire des différences de profil entre participants et non-participants ? Avons-nous intérêt à utiliser les outils statistiques récents ? En abordant ces sujets ensemble, nous évoluerons vers un véritable réseau scientifique. » Marie Zins, directrice scientifique de Constances, est sur la même longueur d’onde. « Je trouve très bien que l’Inserm nous réunisse pour parler de science ! Notre cohorte de population générale a beaucoup à apprendre de celles spécialisées dans le cancer, l’hépatite ou les maladies neurodégénératives. Par exemple, elles peuvent m’aider à définir les bons algorithmes pour spécifier une pathologie. Pour ma part, je peux partager mon expérience de la validation de la conformité des données SNDS, ou recettage, qui est une opération particulièrement complexe. C’est déjà un sujet sur lequel on m’interroge souvent. »

La nouvelle infrastructure informatique apportera sa pierre à l’édifice : comme elle stockera des volumes de données massifs, elle pourra exploiter des outils statistiques plus puissants et plus rapides, ainsi que des techniques émergentes de machine learning. « L’objectif est de remettre la science au cœur du système d’information et de décharger nos chercheurs de tâches de gestion informatique », souligne Sammy Sahnoune. En conclusion, Leïla Ben Jannette insiste sur la dimension stratégique de la démarche : « France Cohortes a pour ambitions de pérenniser des grands outils de recherche et d’améliorer encore leur niveau scientifique, mais impose de revoir en profondeur certains fonctionnements. De plus, elle s’insère elle-même dans le futur Health Data Hub français. C’est un projet innovant, préfigurateur, mais qui ne fait que commencer. »