Un partenariat helvético-malawien

Partage des données et protection de la vie privée dans les pays à revenu faible et intermédiaire

"La Suisse ne dispose pas d'un système de partage de données ouvertes dans le domaine des sciences de la santé", explique le statisticien Matthias Templ de la Haute école des sciences appliquées de Zurich (ZHAW). "En gros, ce n'est pas pratiqué ici, mais c'est fait par des chercheurs au Malawi. Et je pense que nous pouvons apprendre d'eux".

Publié : 01.06.2021, Auteur : Jeannie Wurz

Le partage et la protection des données sont devenus un sujet brûlant pour les particuliers, les entreprises, les ONG, les sociétés et les pays du monde entier. Une subvention en 2020 de 10 000 CHF de ESTHER Switzerland soutient une collaboration entre l'unité de recherche épidémiologique et interventionnelle du Malawi (MEIRU) au Malawi et l'université des sciences appliquées de Zurich (ZHAW) en Suisse. Le partenariat est dirigé au Malawi par le documentaliste de données Chifundo Kanjala et à Zürich par Matthias Templ.

MEIRU est une ONG malawite qui mène des recherches sur la santé des populations dans les zones urbaines et rurales du Malawi. Les études de MEIRU sont réglementées par la Commission nationale du Malawi pour la science et la technologie, et une approbation éthique est demandée pour chaque projet de recherche individuellement. L'autorisation éthique stipule les conditions de partage des données.

Les partenaires

L'objectif de ce projet de six mois est d'améliorer les méthodes utilisées pour rendre anonymes les données sanitaires et démographiques recueillies dans les pays à faible revenu. Le partenariat est né alors que M. Kanjala préparait des ensembles de données MEIRU en vue de leur partage.

"Je me suis rendu sur le site Web du Réseau international d'enquêtes auprès des ménages pour rechercher des ressources sur la préparation des données en vue de leur partage, et j'ai trouvé des informations décrivant un logiciel que Matthias et d'autres avaient préparé pour l'anonymisation des données, appelé sdcMicro. Cela m'a permis de commencer. Mais j'ai rapidement rencontré des questions auxquelles je ne trouvais pas facilement de réponses, et j'ai donc écrit un courriel à Matthias, et nous avons commencé à correspondre."

Templ est l'auteur du livre Contrôle statistique de la divulgation pour les microdonnées : Méthodes et applications en R, publié en 2017. "Il y avait déjà quelques livres disponibles, mais aucun n'expliquait les méthodes de manière mathématique, tout en fournissant quelques applications logicielles", explique-t-il. "J'ai essayé de donner une base théorique mais aussi de montrer dans des exemples pratiques, avec des logiciels, comment les méthodes fonctionnent." 

Le projet

La correspondance initiale par courriel a débouché sur un projet commun visant à renforcer les capacités dans le domaine du partage éthique des données produites au Malawi, en utilisant les données MEIRU comme prototype. Kanjala et Templ ont nommé leur projet "Better De-Identification Using Statistical Anonymisation (BISA) for Malawi Population Health Data". Comme acronyme pour le projet, Kanjala a choisi BISA, qui signifie "cacher" en Chichewa, la langue nationale du Malawi. "Je l'ai choisi parce que lorsque vous désidentifiez, vous essayez de cacher l'identité des gens", explique-t-il.

Cette collaboration implique la création d'un modèle pour l'anonymisation des données provenant des groupes de recherche sur les systèmes de surveillance sanitaire et démographique (HDSS) et sur la santé des populations. Selon M. Kanjala, cette collaboration apportera un avantage immédiat à MEIRU, dans la mesure où les chercheurs pourront être sûrs de partager des données correctement anonymisées et conformes aux normes internationales.

Selon le livre de Templ, la demande et le volume de données provenant d'enquêtes, de registres ou d'autres sources contenant des informations sensibles sur des personnes ou des entreprises ont considérablement augmenté au cours des dernières années. Dans le même temps, les principes et les réglementations en matière de protection de la vie privée ont imposé des restrictions à l'accès et à l'utilisation des données individuelles. 

Pourquoi partager les données ?

Le partage des données présente des avantages, selon M. Kanjala. "C'est une utilisation efficace des ressources, car la deuxième personne n'a pas à collecter les données à nouveau." La transparence de la science est une autre question très importante. "C'est de la bonne science que de partager les données. L'autre personne peut vérifier ce que j'ai fait", dit Kanjala. "Sinon, je pourrais me contenter de publier des conclusions. Si je partage mes données, quelqu'un peut confirmer ou réfuter ce que j'ai affirmé."

"C'est de la bonne science de partager les données. L'autre personne peut vérifier ce que j'ai fait."

Chifundo Kanjala

Les bailleurs de fonds de la recherche exigent de plus en plus que les données soient partagées. Toutefois, bien que le partage des données présente un grand intérêt pour faire progresser la science et tirer le maximum de bénéfices du financement, affirment les partenaires, "l'une des principales préoccupations est la nécessité de préserver la confidentialité des participants à l'étude."

En 2016, dans la revue Open Access Scientific Data, des parties prenantes représentant le monde universitaire, l'industrie, les organismes de financement et l'édition savante ont créé et approuvé les "FAIR Guiding Principles for scientific data management and stewardship", qui demandent que les données de recherche soient trouvables, accessibles, interopérables et réutilisables (FAIR).

En une décennie, les attentes des bailleurs de fonds ont conduit à mettre davantage l'accent sur l'anonymisation des données, explique M. Kanjala. "Nous sommes allés au-delà du travail au sein de notre petit groupe de chercheurs ou avec des associés proches. Aujourd'hui, nous partageons les données que nous produisons avec un groupe plus large de chercheurs. Vous ne les connaissez peut-être pas du tout. Vous ne savez pas qui utilise réellement vos données et qui ne le fait pas. Vous voulez donc rendre l'anonymisation des données aussi forte que possible."

Intérêt croissant pour la protection des données

Le concept central de l'anonymisation des données consiste à transformer les données de manière à réduire le risque de réidentification des personnes présentes dans l'ensemble de données. "En statistiques, nous voulons dire quelque chose sur un groupe de personnes", explique Templ. "L'objectif n'est pas d'analyser une personne en particulier. Nous voulons analyser certains indicateurs généraux sur l'état de santé, par exemple, à partir de la population."

Les scandales liés à la protection des données dans les années 1990 ont mis en évidence le fait que la suppression ou la pseudo-anonymisation des attributs d'identification directe tels que les noms, les adresses et les numéros d'assurance sociale ne suffit généralement pas à prévenir les violations de la protection des données.

En mai 2016, l'Union européenne a approuvé une nouvelle législation radicale sur la confidentialité des données régissant "la protection des personnes physiques à l'égard du traitement des données à caractère personnel et sur la libre circulation de ces données." Le règlement général sur la protection des données (RGPD) est entré en vigueur en mai 2018.

Pendant ce temps, en Suisse, la loi fédérale révisée sur la protection des données (LPD ) a été adoptée par le Parlement à l'automne 2020 et devrait entrer en vigueur à la mi-2022. Le nouveau PFPD devrait notamment renforcer les droits des citoyens à la protection des données et à la vie privée et les sauvegarder à plus long terme.

Différences dans la collecte des données

Le Malawi - un pays à faible revenu - ne dispose pas des ressources nécessaires pour organiser l'accès aux données sur les soins de santé pour tous ceux qui veulent faire de la recherche, explique Chifundo Kanjala. Les lignes directrices et les outils open source tels que ceux mis en œuvre dans le cadre du projet BISA peuvent réduire l'obstacle au partage des données de santé au niveau individuel pour la recherche et l'aide à la décision.

M. Kanjala travaille au sein d'une équipe de programmeurs de bases de données et de spécialistes des données qui gèrent la collecte, la validation, le traitement et l'intégration des données que les chercheurs peuvent ensuite analyser pour comprendre et soutenir les politiques et les décisions. Les cohortes de recherche basées sur la population avec lesquelles ils travaillent produisent des données très complexes, explique M. Kanjala, et la préparation de ces données en vue de leur analyse par les chercheurs nécessite une équipe.

"Lorsque vous réalisez une enquête transversale, explique-t-il, vous n'interrogez les gens qu'une seule fois. Vous obtenez vos informations, puis vous en tirez un ensemble de données. Mais les cohortes de population avec lesquelles nous travaillons impliquent un suivi longitudinal des participants à l'étude sur une période donnée. Vous retournez donc sans cesse à la population. Vous essayez de relier les données dans le temps."

Traitement des données
Traitement des données

Il existe des différences supplémentaires dans la manière dont les données de recherche sur la santé sont collectées dans les PRFM, explique M. Kanjala. "Tout le monde n'est pas alphabétisé. Vous ne pouvez pas poster un questionnaire en ligne et vous attendre à ce qu'un habitant du Malawi rural le remplisse et vous le renvoie. Très souvent, vous devrez envoyer des enquêteurs qui vont s'asseoir avec les participants à votre étude et discuter avec eux (voir la photo de titre d'un enquêteur en blouse bleue avec un participant). Vous aurez besoin de quelqu'un pour interroger le patient dans sa langue locale, puis vous devrez le traduire en Anglais."

Avantages du partenariat ESTHER 

Contrairement à la situation de nombreux pays africains à revenu faible ou intermédiaire, MEIRU a accès à une riche source de données de recherche sur la santé collectées dans une zone rurale du Malawi sur une période de plus de 30 ans, et à un site de recherche urbain dans la capitale qui existe depuis 2013. Elle exploite un système de surveillance sanitaire et démographique (HDSS) qui combine des procédures de terrain et informatiques pour collecter des données sur la démographie, les risques sanitaires, l'exposition et les résultats. Les résultats sont utilisés pour alimenter le dialogue national et régional sur la préparation des données ouvertes d'une manière qui respecte la confidentialité et la vie privée des personnes qui consentent à participer aux études de recherche.

"Notre projet ESTHER est le premier à réfléchir à la manière dont nous pouvons partager les données de recherche sur la santé en Suisse."

Matthias Templ

Actuellement, selon la proposition de projet, le sujet important de la confidentialité des données de santé n'a pas été suffisamment exploré, dans les PRFM en général et dans les HDSS en particulier. Les HDSS partagent actuellement des données sans indication claire des niveaux de risque que l'identité des personnes dans un ensemble de données puisse être divulguée.

Selon Matthias Templ, la Suisse est loin derrière le Malawi en termes de partage de données en libre accès dans la recherche en santé. "Notre projet ESTHER est le premier à réfléchir à la manière dont nous pouvons partager les données de la recherche en santé en Suisse."

Les partenaires s'attendent à ce que les résultats du projet ESTHER suscitent un grand intérêt. "De nombreux pays vont s'intéresser à ce que nous faisons dans le domaine de l'anonymisation et du partage des données de santé", déclare Templ. "Beaucoup de gens attendent de voir les résultats".

Les communautés de recherche en sciences humaines et médicales dans les pays à faible et à moyen revenu seront les premiers bénéficiaires des publications et du logiciel qui en résulteront, mais les résultats seront utiles à tous ceux qui travaillent à l'anonymisation des ensembles de données longitudinales à des fins de partage, indique Templ.

Prochaines étapes

Le partenariat a commencé par une subvention de démarrage ESTHER, et maintenant Kanjala et Templ réfléchissent à la manière de procéder. Afin de donner aux gestionnaires et aux scientifiques des données un aperçu des questions en jeu, leur projet prévoyait un webinaire de quatre heures à la fin du mois d'avril 2021. Des spécialistes des données du Malawi, d'Afrique du Sud et de pays voisins y ont participé.

Traditionnellement, il y a toujours eu quelqu'un venant d'une université d'un pays à revenu élevé pour diriger l'analyse des données dans les partenariats nord-sud de recherche en santé, explique M. Kanjala. Mais il y a de plus en plus de chercheurs africains établis qui dirigent des groupes dans les PRFM. "Le paysage est en train de changer", dit-il, "mais cela prend du temps".

Les chercheurs ont pris un bon départ. "Notre partenariat est un exemple où le partage des données a très bien fonctionné", déclare Templ. "Chifundo a utilisé le logiciel parce qu'il pouvait l'utiliser, parce que c'est un logiciel libre et gratuit, et cela a conduit à notre collaboration internationale. C'est la réussite de la recherche ouverte."