Contenu du sommaire : Big data, sociétés et sciences sociales

Revue Revue Française de Sociologie Mir@bel
Numéro vol. 59, no 3, 2018
Titre du numéro Big data, sociétés et sciences sociales
Texte intégral en ligne Accessible sur l'internet
  • Dossier

    • Le moment big data des sciences sociales - Gilles Bastin, Paola Tubaro p. 375-394 accès libre avec indexation
    • De quoi l'écart d'âge est-il le nombre ? : L'apport des big data à l'étude de la différence d'âge au sein des couples - Marie Bergström p. 395-422 accès libre avec résumé avec résumé en anglais avec indexation
      Dans la majorité des couples hétérosexuels, l'homme est plus âgé que la femme. Ce fait est étonnamment constant à travers le temps et les continents : dans la quasi-totalité des sociétés connues, l'époux est en moyenne plus âgé que son épouse. Si le fait est bien établi, les ressorts le sont beaucoup moins. Comment se produit cette asymétrie sexuée ? À cette problématique, relative aux rapports de genre, les enquêtes peinent à répondre. Parce qu'elles interrogent des personnes déjà en union, elles captent mal le processus de rencontre. Cet article propose une approche alternative, mobilisant des données issues d'un site de rencontres sur internet. Ces services – désormais largement utilisés en France – constituent un point d'observation original sur les attentes des acteurs et les logiques d'appariement des partenaires. Aussi donnent-ils des enseignements nouveaux. Alors que les données d'enquêtes indiquent que l'écart d'âge est surtout désiré par les femmes, les analyses du site montrent qu'il est aussi recherché par les hommes, notamment lors d'une remise en couple. Plus généralement, l'étude questionne la notion de « choix » du conjoint – chère aux sociologues du couple – montrant que les rencontres amoureuses et sexuelles reposent sur un arbitrage entre les aspirations féminines et masculines qui divergent plus souvent qu'elles ne concordent. Par l'exemple de l'écart d'âge, l'article se veut une illustration empirique de quelques-unes des opportunités offertes par lesdites « données massives ».
      What's behind the age gap between spouses? Big data and the study of age difference within couples
      In the majority of heterosexual couples the man is older than the woman. This observation is surprisingly consistent over time and space. In almost all known societies, the husband is on average older than the wife. Yet although this fact is well established, the mechanisms at work are much less so. How does this gender asymmetry come to be? Traditional surveys have a hard time answering this question; because they focus on individuals who are already in a couple, they do not adequately capture the dating process. This article relies on an alternative approach that mobilizes data from an online dating site. These services—which are now widely used in France—provide an original viewpoint on women's and men's mate preferences and the matching mechanisms. In doing so, they provide new results. Whereas survey data suggest that the age difference is above all sought by women, the data from the website show that it is also desired by men, especially after a separation. More generally, the study questions the notion of the “partner choice”—largely used in the sociological literature—and shows that romantic and sexual encounters are based on a compromise between female and male preferences that diverge rather than they coincide. Through the example of age difference between spouses, the article seeks to demonstrate some of the opportunities provided by “big data”.
    • Plateforme, big data et recomposition du gouvernement urbain : Les effets de Waze sur les politiques de régulation du trafic - Antoine Courmont p. 423-449 accès libre avec résumé avec résumé en anglais avec indexation
      Cet article adopte une perspective de sociologie de la donnée pour analyser les recompositions de la gouvernance urbaine liées à l'émergence d'un nouveau régime de quantification : le big data. À partir du cas des politiques de circulation routière et de l'application Waze, deux hypothèses sont poursuivies : 1) Le big data propose de nouvelles représentations de la ville qui troublent l'agencement stable et ordonné de la réalité porté par les institutions publiques. Cela permet à de nouveaux acteurs, les plateformes, de proposer des formes alternatives de régulation de l'espace urbain provoquant des tensions avec les autorités publiques locales. 2) Toutefois, l'analyse précise des modalités de production de ces nouvelles données met en évidence des modes d'accommodement entre la réalité établie par les institutions publiques et celle des plateformes de service numérique. Par la voie discrète des données émergent de nouvelles modalités de coordination entre acteurs publics et privés. Cet article illustre ainsi l'apport d'une sociologie de la donnée pour comprendre comment, à l'ère du big data, s'articulent différents types de régulation sur un territoire pour former de nouveaux modes de gouvernance urbaine.
      Platform, big data and the reshaping of urban government: The effects of Waze on traffic regulation policiesThis article adopts a perspective of sociology of data to analyze how urban governance is being reshaped in connection with the new quantification regime of big data. Drawing on the case of traffic flow plans and the Waze application, it pursues two hypotheses. 1) Big data puts forward new representations of the city that disturb what has been public institutions' stable, ordered organization of reality, enabling new actors called platforms to offer alternative ways of regulating urban space and thereby generating tensions with local public authorities. 2) Nonetheless, the analysis specifies that the ways in which these new data are produced bring to light modes of accommodating both the reality established by public institutions and the reality of digital service platforms. Through the data path, new types of coordination between public and private actors emerge. The article thus illustrates what sociology of data can contribute to understanding how in the big data era, different types of regulation can be applied locally to produce new modes of urban governance.
    • Le tout plutôt que la partie : Big data et pluralité des mesures de l'opinion sur le web - Baptiste Kotras p. 451-474 accès libre avec résumé avec résumé en anglais avec indexation
      Sur les blogs, forums et sites de réseaux sociaux, l'abondance et la calculabilité de la parole des internautes permettrait d'accéder à une opinion spontanée, directement issue des traces de nos conversations ordinaires. Depuis les années 2000, un ensemble de start-ups et d'agences élaborent ainsi des méthodes humaines et algorithmiques visant à tirer parti de ce matériau foisonnant pour proposer une nouvelle mesure des opinions du grand public, voulue plus authentique que celle mesurée par les sondages traditionnels. À travers une sociohistoire du marché de l'opinion en ligne, cet article étudie la façon dont se recompose un nouveau régime de connaissance de l'opinion à partir de ses traces numériques, et souligne le caractère varié, contingent et situé des projets épistémiques qui se saisissent des big data. À partir d'entretiens et d'un travail ethnographique, nous montrons ainsi l'opposition entre des entreprises adeptes de l'échantillonnage des traces numériques, et d'autres, qui visent au contraire une captation la plus exhaustive possible des opinions du web social. Nous analysons en particulier les épreuves simultanément techniques et épistémiques auxquelles se confrontent les acteurs de l'opinion en ligne, qui mettent en échec les approches échantillonnées, et consacrent a contrario le projet d'une veille extensive et continue sur la conversation en ligne.
      The whole rather than its parts: Big data and the multiplicity of opinion measures on the Web
      In the form of blogs, forums and social networking sites, the abundance and calculability of the discourse of Internet users provides access to spontaneous opinion, taken directly from the traces of our everyday conversations. Since the 2000s, a group of start-ups and agencies have been developing social and algorithmic methods to take advantage of this abundant material in order to provide a new way of measuring public opinion, which could be more authentic than that measured by traditional surveys. On the basis of a social history of the online opinion survey market, this article studies the way in which a new regime of knowledge about opinion is being reconstructed from its digital traces, and underlines the varied, contingent and situated nature of the epistemic projects that capture big data. Using interviews and ethnographic studies, we demonstrate the contrast between companies that are experts at sampling digital records, and others which aim instead at capturing as much as possible of the opinions being voiced on the social web. In particular, we analyze the technical and epistemic challenges faced by online opinion actors that nullify sample-study based approaches, and thus support a different approach that involves extensive and continuous study of online conversation.
    • The Great Regression : Machine Learning, Econometrics, and the Future of Quantitative Social Sciences - Julien Boelaert, Étienne Ollion p. 475-506 accès libre avec résumé avec résumé en anglais avec indexation
      Que peuvent faire les sciences sociales avec le machine learning, et que peut-il leur faire ? Cet article propose une introduction à cette classe de méthodes statistiques. Il détaille ses prémisses, sa logique, et les défis qu'elle pose pour les sciences (sociales). Il le fait au moyen d'une comparaison avec d'autres approches quantitative plus conventionnelles, les régressions paramétriques en premier lieu, et ce tant au niveau général qu'en pratique. Au-delà de l'exercice méthodologique, l'article se propose de revenir sur les débats houleux qui entourent le learning. Il revient pour se faire sur le rôle et les conséquences possibles de l'usage de l'apprentissage statistique. Il soutient que la révolution promise par beaucoup et crainte par d'autres ne se produira pas de sitôt, ou en tout cas pas dans les termes souvent mentionnés. Le changement de paradigme évoqué de manière prophétique n'aura pas lieu. Plutôt, une concurrence accrue entre différentes formes de quantification du monde social va se mettre en place. Contre toute attente, cette incertitude croissante pourrait être de bon augure pour la connaissance en général.
      What can social sciences do with machine learning, and what can the latter do to them? A contribution to the emerging debate on the role of machine learning for the social sciences, this article offers an introduction to this class of statistical techniques. It details its premises, logic, and the challenges it faces. This is done by comparing machine learning to more classical approaches to quantification – most notably parametric regression – both at a general level and in practice. The article is thus an intervention in the contentious debates about the role and possible consequences of adopting statistical learning in science. We claim that the revolution announced by many and feared by others will not happen any time soon, at least not in the terms that both proponents and critics of the technique have spelled out. The growing use of machine learning is not so much ushering in a radically new quantitative era as it is fostering an increased competition between the newly termed classic method and the learning approach. This, in turn, results in more uncertainty with respect to quantified results. Surprisingly enough, this may be good news for knowledge overall.
  • Note critique

    • L'analyse des opinions politiques sur Twitter : Défis et opportunités d'une approche multi-échelle - Marta Severo, Robin Lamarche-Perrin p. 507-532 accès libre avec résumé avec résumé en anglais avec indexation
      Des blogs et forums aux pages Facebook et comptes Twitter, le récent déluge des données numériques du web a fortement affecté la recherche en sciences sociales. Cette nouvelle catégorie d'information, utile à l'extraction des opinions politiques, se présente comme une alternative aux techniques traditionnelles telles que les sondages. Premièrement, en réalisant un état de l'art des études de l'opinion s'appuyant sur les données Twitter, cet article vise à mettre en relation les méthodes d'analyse utilisées dans ces études et les définitions de l'opinion politique qui y sont suggérées. Deuxièmement, cet article étudie la faisabilité de réaliser des analyses multi-échelles en sciences sociales concernant l'étude de l'opinion politique en exposant les mérites de plusieurs méthodes, allant des méthodes orientées contenus aux méthodes orientées interactions, de l'analyse statistique à l'analyse sémantique, des approches supervisées aux approches non supervisées. Le résultat de notre démarche est ainsi d'identifier les tendances futures de la recherche en sciences sociales concernant l'étude de l'opinion politique.
      Mining political opinion on Twitter: Challenges and opportunities of multiscale approaches
      Social research on public opinion has been affected by the recent deluge of new digital data on the Web, from blogs and forums to Facebook pages and Twitter accounts. This fresh type of information useful for mining opinions is emerging as an alternative to traditional techniques, such as opinion polls. Firstly, by building the state of the art of studies of political opinion based on Twitter data, this paper aims at identifying the relationship between the chosen data analysis method and the definition of political opinion implied in these studies. Secondly, it aims at investigating the feasibility of performing multiscale analysis in digital social research on political opinion by addressing the merits of several methodological techniques, from content-based to interaction-based methods, from statistical to semantic analysis, from supervised to unsupervised approaches. The end result of such an approach is to identify future trends in social science research on political opinion.
    • Ce que le big data fait à l'analyse sociologique des textes : Un panorama critique des recherches contemporaines - Jean-Philippe Cointet, Sylvain Parasie p. 533-557 accès libre avec résumé avec résumé en anglais avec indexation
      Depuis les années 2000, de nouvelles techniques d'analyse textuelle font leur apparition au croisement des mondes informatiques, de l'intelligence artificielle et du traitement automatique de la langue. Bien qu'élaborées en dehors de toute préoccupation sociologique, ces techniques sont aujourd'hui mobilisées par des chercheurs – sociologues comme non-sociologues – dans le but de renouveler la connaissance du social en tirant parti du volume considérable de matériaux textuels aujourd'hui disponibles. En dressant un panorama des enquêtes sociologiques qui reposent sur la mise en données et le traitement quantitatif de corpus textuels, cet article identifie à quelles conditions ces approches peuvent constituer une ressource pour l'enquête sociologique. Les trois conditions qui émergent de notre analyse concernent : 1) la connaissance du contexte de production des inscriptions textuelles ; 2) l'intégration à l'enquête de données extérieures au texte lui-même ; 3) l'ajustement des algorithmes au raisonnement sociologique.
      What Big data does to the sociological analysis of texts? A review of recent research
      Since the 2000s, new techniques of text analysis have emerged at the crossroads of computer science, artificial intelligence and natural language processing. Although they were developed independently of any sociological theory, these methods are now being used by researchers—sociologists and non-sociologists alike—to produce new knowledge of the social domain exploiting the massive volume of textual materials now available. By providing an overview of recent sociological investigations that are based on quantitative analyses of textual corpora, this article identifies three conditions under which these approaches can be a resource for sociological inquiry. The three conditions that emerge from our analysis concern: 1) knowledge of the context of production of textual inscriptions; 2) integration of external data into the study itself; 3) the adaptation of algorithms for sociological reasoning.
  • Les livres