Contenu du sommaire : Dossier thématique : Big data et protection sociale

Revue	Revue française des Affaires sociales
Numéro	no 4, octobre-décembre 2017
Titre du numéro	Dossier thématique : Big data et protection sociale
Texte intégral en ligne	Accessible sur l'internet

Avant-propos - Magali Beffy p. 5-9
Big data et cancer : le défi - Alain Livartowski, Julien Guérin, Gilles Wainrib p. 11-25
La révolution du big data et de l'intelligence artificielle peut transformer la médecine, et en particulier la lutte contre le cancer. Les grands centres hospitaliers à travers le monde ont un rôle majeur à jouer dans cette transformation car ils concentrent les bases de données les plus riches et les plus proches de la réalité clinique. Dans le domaine de l'aide au diagnostic et de la prédiction de la réponse au traitement, ou afin de mieux déterminer le risque de récidive, le principe consiste à utiliser les technologies de machine learning, de deep learning pour l'analyse automatique des textes, des images et des données de séquençage. Sommes-nous capables d'en extraire des données exploitables pour faire progresser nos connaissances ? Préalable à cette exploitation, de nombreux problèmes doivent être résolus : d'ordre juridique comme l'accès aux données, la question de leur propriété, les problèmes de confidentialité et de consentement du patient, d'ordre technique comme la qualité des données sources, leur interopérabilité et leur intégration. Se poseront ensuite les questions de l'évaluation de ces aides à la décision, et leur appropriation par le monde médical.
Medical care, and particularly the fight against cancer, can be transformed by the Big Data revolution and artificial intelligence. Major hospitals around the world play a major role in this transformation since they bring together those databases that are the richest sources of data and the closest to the clinical reality. The basic method in the field of diagnosis and prediction of response to treatment, as well as better determining of the risk of recidivism, consists of using machine learning and deep learning technologies for the automatic analysis of texts, of images, and of sequencing data. Does this enable us to extract usable data capable of improving our understanding ? First, a series of problems needs to be addressed : legal issues such as access to data and their ownership ; privacy and patient consent issues ; and technical issues such as the interoperability, integration, and quality of data sources. Then, the questions of the evaluation of these aids in decision-making, and their adoption by the medical world can be addressed.
Utilisation des réseaux bayésiens comme technique de fouille de données massives – application à des données de recours aux soins - Chloé Dimeglio, Cyrille Delpierre, Pierre Chauvin, Thomas Lefèvre p. 27-55
Contexte. Les réseaux bayésiens sont utilisés selon deux approches distinctes, reposant sur les mêmes principes d'analyse bayésienne : comme outil de modélisation a priori faisant intervenir les hypothèses du chercheur, ou comme outil de fouille de données, sans hypothèse a priori de la part du chercheur. La première approche a diffusé dans la communauté biomédicale. La seconde provient avant tout de l'intelligence artificielle et n'est à notre connaissance pas utilisée en épidémiologie. Cette application est pourtant prometteuse – notamment dans le cas de données massives – et pourrait permettre la découverte de relations causales insoupçonnées. Cela reste cependant à montrer.Méthode. Nous avons utilisé les données de 2010 de la cohorte SIRS, reposant sur un échantillon représentatif de la population adulte du Grand Paris. Plusieurs publications en épidémiologie sociale sont fondées sur cette cohorte, dont une étudiant les recours aux soins et les caractéristiques sociales en lien avec ces recours. Nous avons réanalysé les données de cette étude avec différents algorithmes de fouille de données permettant tout d'abord d'identifier automatiquement la structure du réseau bayésien représentant les données (le graphe), et ensuite d'estimer les paramètres du réseau à partir des données. Nous avons comparé les résultats obtenus par fouille de données avec les analyses multivariées classiques et les données de la littérature.Résultats. L'analyse multivariée identifie des relations entre variables connues de la littérature. Les analyses par réseau bayésien identifient des relations plus complexes, orientées, entre variables, dont les significations sont simples. La majorité des analyses montre une partition entre variables sociales et variables de recours aux soins.Discussion. La fouille de données massives par réseau bayésien représente un ensemble de techniques théoriquement bien assises, appliquées avec succès dans différents domaines. Notre exemple de résultats obtenus sur des données connues dans le champ de l'épidémiologie sociale suggère que l'intérêt de ce type d'approche doit être clarifié. En particulier, son utilisation en aveugle paraît, au vu de nos résultats, peu pertinente.
Context. There are two distinct approaches to the use of Bayesian networks, both of which rely on the same principles of Bayesian analysis, namely as an a priori modelling tool involving the researcher's hypotheses, and as a data mining tool, without the researcher's a priori hypothesis. The first approach has spread to the biomedical community. The second comes primarily from artificial intelligence and to our knowledge is not being used in epidemiology. Nevertheless, this application is promising—especially in the case of massive data—and could lead to the discovery of unsuspected causal relationships. This remains to be demonstrated.Method. We used the 2010 data from the SIRS cohort, based on a representative sample of the adult population of Greater Paris. Several publications in social epidemiology are based on this cohort, including one that studies care utilisation and its corresponding social characteristics. We re-analysed the data from this study with different data mining algorithms that i) automatically identify the structure of the Bayesian network representing the data (the graph), and ii) estimate the network parameters from data. We compared the results obtained by data mining with classical multivariate analyses and data from the literature.Results. Multivariate analysis identifies relationships between variables known from the literature. Bayesian network analyses identify more complex relationships, oriented among variables with simple connotations. The majority of analyses show a separation between social variables and care utilisation variables.Discussion. Mass searching by Bayesian network represents a set of theoretically well-established techniques successfully applied in different domains. Our example of results obtained on known data in the field of social epidemiology suggests that the interest of this type of approach needs to be clarified. In particular, in view of our results, its blinded application appears to have little relevance.
La protection des données personnelles comme mode de régulation du big data en protection sociale complémentaire - Morgane Bertrand p. 57-78
Le big data constitue un véritable défi pour le système français de protection sociale, fondé sur la mutualisation des risques. Un changement de paradigme est effectivement à l'œuvre avec l'acquisition de données personnelles de plus en plus nombreuses, permettant de réduire l'asymétrie d'information, et de fait l'aléa moral, entre l'assureur et l'assuré.D'une part, la conception du risque s'éloigne progressivement de la notion d'aléa, alors même que le caractère aléatoire est consubstantiel au contrat d'assurance. D'autre part, le modèle traditionnel de protection sociale consistant à atténuer le risque par l'indemnisation du sinistre s'accompagne désormais d'une nouvelle approche préventive.Or, ce changement de paradigme risque d'entraîner une segmentation excessive des risques, susceptible de porter atteinte à la protection des personnes. Si le règlement (UE) no 2016/679 et la loi no 2016-1321 pour une République numérique tendent à redonner aux personnes la maîtrise de l'usage de leurs données personnelles, le cadre normatif en vigueur laisse néanmoins apparaître une tension entre diffusion et rétention des données.Ce constat impose alors la recherche d'un nouvel équilibre entre la protection des droits et des libertés des personnes physiques et les enjeux propres au secteur de la protection sociale, à la fois concurrentiel et réglementé.
“Big Data” represents a real challenge for the French social protection system, which is based on pooling risks. A paradigm shift is indeed at work with the acquisition of more and more personal data reducing the asymmetry of information, and indeed the ethical uncertainties, between the insurer and the insured.On the one hand, the concept of risk has been gradually evolving away from the notion of uncertainty, even though randomness is inseparable from the insurance contract. On the other hand, the traditional social protection model of mitigating risk through damage insurance is now complemented by a new preventive approach.However, this paradigm shift may lead to excessive compartmentalisation of risk, which may undermine the protection of individuals. Although EU Regulation 2016/679 and Law 2016-1321 for a Digital Republic lean towards restoring the individual's control over the use of their personal data, the existing normative framework nevertheless demonstrates the strain between the dissemination and retention of data.This finding calls for a new balance between the protection of the rights and freedoms of natural persons and the specific challenges of the social protection sector, which is both competitive and regulated.
L'enjeu de l'anonymisation à l'heure du big data - Hélène Tanghe, Paul-Olivier Gibert p. 79-93
Le système national des données de santé (SNDS) soulève la question de l'« open data santé », et a relancé les réflexions autour de l'anonymisation des données personnelles. La qualification de donnée anonyme représente un véritable enjeu, dans la mesure où elle constitue soit une obligation légale (open data), soit un outil de conformité à la protection des données personnelles.Cependant, à l'ère du big data et des progrès d'analyse des données, il subsiste toujours un risque de ré-identification. Face à une interprétation stricte de l'anonymisation de la part du G29, qui adopte une approche « zéro risque », l'anonymisation nécessite d'être repensée. Alors que la Commission nationale de l'informatique et des libertés (CNIL) s'est vue récemment chargée de publier des référentiels pour la certification des processus d'anonymisation, l'article présente les limites de cette approche trop stricte et principalement établie sur des critères techniques. Il plaide pour une interprétation plus souple de l'anonymisation via la mise en place de seuils de risques prédéfinis selon le contexte, permettant d'évaluer l'anonymat, et le renforcement de mesures juridiques.
The National Health Data System (SNDS — Système national des données de santé) raises the issue of open health data and has revived discussions on the anonymisation of personal data. The attributes of anonymous data are a serious question, insofar as they constitute either a legal obligation (open data) or a tool for compliance with the protection of personal data.However, in the era of Big Data and progress in data analysis, there is still a risk of re-identification. Faced with a strict interpretation of anonymisation on the part of the G29, which has adopted a “zero risk” approach, anonymisation needs to be rethought. While the CNIL (Commission nationale de l'informatique et des libertés) has recently been given the task of publishing benchmarks for the certification of anonymisation procedures, the article presents the limits of this approach which is too strict and mainly based on technical criteria. It advocates a more flexible interpretation of anonymisation through the establishment of pre-defined risk thresholds according to the context, allowing anonymity to be assessed and strengthening legal measures.
Peut-on délibérer du big data en santé sans controverser ? Retour sur l'expérience d'un atelier citoyen français - Guillaume Gourgues, Alice Mazeaud p. 95-115
Cet article se propose d'analyser les conditions de possibilités de la délibération démocratique sur le sujet fortement controversé du big data en santé à partir de l'observation ethnographique de l'atelier citoyen organisé par le ministère de la Santé en 2016. En étudiant à la fois la production du dispositif par les pouvoirs publics et son fonctionnement interne, nous souhaitons interroger la capacité de ce « mini-public délibératif » à faire « entrer en démocratie », c'est-à-dire dans une confrontation publique d'opinion, les enjeux liés au big data. En quoi ce type d'expérience peut-il amener des citoyens tirés au sort à entrer dans une controverse sociale plus vaste sur le thème, éminemment complexe, qu'on leur soumet ? Alors que le thème est très controversé, nous montrerons que les conditions de mise en place et de fonctionnement d'un mini-public délibératif peuvent entraîner une certaine « déprise » de sa production vis-à-vis de la controverse éthique et politique dont les raisons sont autant à chercher dans le cadrage du dispositif par ses organisateurs que dans la dynamique « délibérative » qui prend place en son sein.
This article analyses the conditions for democratic deliberation on the controversial subject of Big Health Data based on an ethnographic analysis of the mini-public organised by the Ministry of Health in 2016. Studying both the government's organisation of this event and its internal functioning, we will investigate the capacity of this “deliberative mini-public” to “institute democracy” in a public confrontation of opinion on issues related to Big Data. How can this type of experience encourage randomly selected citizens to take part in a wider social controversy on the highly complex subject that is being submitted to them ? While the subject is very controversial, we will show that the conditions for setting up and operating a deliberative mini-public can lead to a certain “indifference” to its organisation in relation to the ethical and political controversy that can be explained as much by the orientation given to the workshop by its organisers as in the “deliberative” dynamic that takes place within it.
Quelle place pour la data science et les big data au sein de la statistique publique ? - Stéphanie Combes, Pauline Givord p. 117-126
Quelle inférence pour l'épidémiologie à l'heure des big data ? - Bruno Falissard p. 127-132
Projets d'intelligence artificielle à l'échelle d'un établissement de santé : l'exemple du centre Léon Bérard - Pierre-Étienne Heudel, Thierry Durand, Jean-Yves Blay p. 133-140
Le big data à l'Agence centrale des organismes de sécurité sociale (ACOSS). Du concept à l'expérimentation - Cyrille Hagneré p. 141-149
Les données au cœur de la stratégie numérique de la branche retraite - Pascale Breuil, Renaud Villard p. 150-158
Apprendre tout au long de la vie dans une civilisation du numérique - François Taddei, Bénédicte Tilloy p. 159-167
Appel à contribution pluridisciplinaire sur : « Big data et protection sociale » : Pour le numéro 4 - 2017 - p. 168-176