Contenu de l'article

Titre Utilisation des réseaux bayésiens comme technique de fouille de données massives – application à des données de recours aux soins
Auteur Chloé Dimeglio, Cyrille Delpierre, Pierre Chauvin, Thomas Lefèvre
Mir@bel Revue Revue française des Affaires sociales
Numéro no 4, octobre-décembre 2017 Dossier thématique : Big data et protection sociale
Page 27-55
Résumé Contexte. Les réseaux bayésiens sont utilisés selon deux approches distinctes, reposant sur les mêmes principes d'analyse bayésienne : comme outil de modélisation a priori faisant intervenir les hypothèses du chercheur, ou comme outil de fouille de données, sans hypothèse a priori de la part du chercheur. La première approche a diffusé dans la communauté biomédicale. La seconde provient avant tout de l'intelligence artificielle et n'est à notre connaissance pas utilisée en épidémiologie. Cette application est pourtant prometteuse – notamment dans le cas de données massives – et pourrait permettre la découverte de relations causales insoupçonnées. Cela reste cependant à montrer.Méthode. Nous avons utilisé les données de 2010 de la cohorte SIRS, reposant sur un échantillon représentatif de la population adulte du Grand Paris. Plusieurs publications en épidémiologie sociale sont fondées sur cette cohorte, dont une étudiant les recours aux soins et les caractéristiques sociales en lien avec ces recours. Nous avons réanalysé les données de cette étude avec différents algorithmes de fouille de données permettant tout d'abord d'identifier automatiquement la structure du réseau bayésien représentant les données (le graphe), et ensuite d'estimer les paramètres du réseau à partir des données. Nous avons comparé les résultats obtenus par fouille de données avec les analyses multivariées classiques et les données de la littérature.Résultats. L'analyse multivariée identifie des relations entre variables connues de la littérature. Les analyses par réseau bayésien identifient des relations plus complexes, orientées, entre variables, dont les significations sont simples. La majorité des analyses montre une partition entre variables sociales et variables de recours aux soins.Discussion. La fouille de données massives par réseau bayésien représente un ensemble de techniques théoriquement bien assises, appliquées avec succès dans différents domaines. Notre exemple de résultats obtenus sur des données connues dans le champ de l'épidémiologie sociale suggère que l'intérêt de ce type d'approche doit être clarifié. En particulier, son utilisation en aveugle paraît, au vu de nos résultats, peu pertinente.
Source : Éditeur (via Cairn.info)
Résumé anglais Context. There are two distinct approaches to the use of Bayesian networks, both of which rely on the same principles of Bayesian analysis, namely as an a priori modelling tool involving the researcher's hypotheses, and as a data mining tool, without the researcher's a priori hypothesis. The first approach has spread to the biomedical community. The second comes primarily from artificial intelligence and to our knowledge is not being used in epidemiology. Nevertheless, this application is promising—especially in the case of massive data—and could lead to the discovery of unsuspected causal relationships. This remains to be demonstrated.Method. We used the 2010 data from the SIRS cohort, based on a representative sample of the adult population of Greater Paris. Several publications in social epidemiology are based on this cohort, including one that studies care utilisation and its corresponding social characteristics. We re-analysed the data from this study with different data mining algorithms that i) automatically identify the structure of the Bayesian network representing the data (the graph), and ii) estimate the network parameters from data. We compared the results obtained by data mining with classical multivariate analyses and data from the literature.Results. Multivariate analysis identifies relationships between variables known from the literature. Bayesian network analyses identify more complex relationships, oriented among variables with simple connotations. The majority of analyses show a separation between social variables and care utilisation variables.Discussion. Mass searching by Bayesian network represents a set of theoretically well-established techniques successfully applied in different domains. Our example of results obtained on known data in the field of social epidemiology suggests that the interest of this type of approach needs to be clarified. In particular, in view of our results, its blinded application appears to have little relevance.
Source : Éditeur (via Cairn.info)
Article en ligne http://www.cairn.info/article.php?ID_ARTICLE=RFAS_174_0027