Navigation – Plan du site
Dossier : Le tournant numérique… Et après?

Vie et mort des sciences sociales avec le big data

Dominique Boullier
p. 19-37

Résumés

Une troisième génération de sciences sociales doit voir le jour pour assumer la spécificité du monde de données et de traces créées par les réseaux numériques, sans se contenter de prolonger les acquis des sciences de la « société » et de l’« opinion ». Ces entités ont été construites dans une époque donnée dont la généalogie est restituée pour être comparée avec le travail des agences exploitant les traces numériques et pouvant produire toute la réflexivité nécessaire en devenant prédictives. Il est proposé de penser les traces numériques en tant que « répliques » que les sciences sociales doivent suivre avec des méthodes adaptées car elles constituent désormais un nouveau continent du social.

Haut de page

Texte intégral

1Et si les sciences sociales disparaissaient de la surface de la terre et de la pensée des êtres sociaux ? Impensable pour ces disciplines qui ont pourtant la culture nécessaire pour être averties que toute institution (et même toute civilisation) est provisoire et mortelle. Pourtant, l’ère du big data n’est pas une simple mode qui passera, elle est portée par des dispositifs techniques, institutionnels, cognitifs, marchands et des discours qui font système, qui font « matérialité » et « énoncé », comme tout dispositif (Foucault, 1966) pour produire une nouvelle offre d’interprétation du social. Le big data fait émerger une nouvelle « époque » qui n’est pas seulement faite d’une augmentation des capacités de calcul ou des volumes de données car le changement d’échelle (McLuhan, 1964) entraîne un nouveau cadre de pensée : la collection des traces en masse et en vitesse invente un monde, une forme de traitement des questions qui s’impose au-delà de ses univers d’origine, la finance et les marques.

2De telles prévisions et de telles alertes seront considérées comme abusives et ignorantes des capacités de résistance des scientifiques. Les sciences sociales ont su depuis près de vingt ans s’approprier le numérique, nous dira-t-on : des équipements de plus en plus performants dans toutes les phases de travail et même de « grands équipements », du calcul toujours plus présent marquant une augmentation significative du souci de quantification, des process de publication et d’archivage qui rendent plus visibles et fiables leurs productions. Toutes les disciplines ont su évoluer et devenir des « humanités numériques » sous une forme ou sous une autre. Il faut même noter que dans nombre d’entre elles les versions numériques de la pratique scientifique sont devenues dominantes. C’est le cas en linguistique avec le TALN (traitement automatique du langage naturel) ou en géographie avec la géomatique. Dans tous ces cas, les enjeux théoriques ne sont plus au cœur des débats, puisque les corpus de données disponibles pour le calcul permettent de produire des résultats jugés pertinents par approximations successives. Le détour que constitue toute technique (faire autrement, Gagnepain, 1982) permet désormais de produire des interprétations sans le détour de la discussion théorique.

  • 1 Google, Apple, Facebook, Amazon.

3Nous ne disons pas que les sciences sociales sont passées à côté de la révolution numérique. Nous soulignons seulement la force de frappe et surtout de contagion d’un modèle de traitement du social par ses traces mis en place par les marques et les plates-formes (GAFA1 pour résumer, avec Twitter en avant-garde). La culture et les pratiques du big data ont constitué depuis près de quinze ans un autre monde de données, d’autres méthodes de traitement et ont réussi à fournir des résultats de plus en plus pertinents pour les anciens demandeurs de sciences sociales que sont les décideurs dans tous les domaines, les gouvernements, les médias ou les entreprises.

Données et traces

4Pour bien saisir ce phénomène, le big data ne doit pas être confondu avec la taille des bases de données, ces données que les sciences sociales étaient habituées à traiter, et qui faisaient retomber les explications sur quelques variables sociodémographiques considérées comme déterminantes a priori. Certes, les marques ne rechignent pas à connaître les propriétés de leurs clients et à constituer ainsi des fichiers de plus en plus fournis donnant lieu à un suivi par les dispositifs de CRM (consumer relationship management) reconnu désormais comme assez peu performant au même titre que les traditionnelles segmentations de marché. Mais les marques ont appris à collecter d’autres indices des attachements de leurs clients potentiels à travers les traces qu’ils laissent tous sur les sites, sur les blogs, sur les réseaux sociaux, sur les plates-formes d’achat. Dans ce cas, le profiling fin n’est pas possible car les éléments recueillis se résument à des clics, des « like », des étoiles d’évaluation, des localisations et, dans les plus riches des cas, à des commentaires anonymes ou à des actes d’achat (Boullier et Lohard, 2012). De toutes ces traces, il est pourtant possible de faire un usage très profitable pour faire du targeting (ciblage), du placement publicitaire très réactif, qui ne nécessite pas de connaître des causes aux comportements des internautes mais seulement de croiser par exemple les traces de millions de clics avec celles de leur géolocalisation. De grandes tendances (trends) peuvent ainsi être démontrées à partir de corrélations entre suites de données parfois très éloignées et dont les individus ne sont plus le centre. Ce que l’on perd en affinement individuel et en causes, on le compense par des gains sur le volume de données, sur la prédiction et sur la réactivité. Car tous ces systèmes de calcul des traces sont conçus pour l’action et non pour l’explication. Ils doivent aider à réorienter une campagne, à valider les effets d’une autre, à repérer des tendances inédites, comme les relations entre désabonnements à une offre télé et changement dans la famille, obtenus par d’autres traces (ce qui est encore très sociologiquement explicable) ou comme les relations entre buzz sur Twitter et température extérieure ou, plus radical encore, entre taux de commentaires (engagement) et lancements d’annonce sur certains réseaux sociaux.

L’absence de « tout » de référence entraîne la disparition de l’exhaustivité et de la représentativité

5Les puissances de calcul sont essentielles mais c’est avant tout la torsion qui est effectuée sur les modes de raisonnement statistique qui est décisive : dans ces données, aucun « tout » de référence n’est disponible car le web est sans limites, sans réduction possible à des entités connues. Les tentatives pour délimiter des corpus correspondant à des communautés que l’on pourrait renvoyer à des équivalents sociaux connus hors ligne ne parviennent pas à justifier leurs recueils de données par une quelconque représentativité. Dans ces calculs, il faut donc accepter que le volume et la variété, deux des qualités du big data, se substituent à l’exhaustivité et à la représentativité. On conçoit que les statisticiens les plus classiques se trouvent mal à l’aise. Plus important encore, l’exploration des données ne doit pas se limiter à la réponse à des questions que l’on mettrait en forme d’hypothèses pour valider des causalités en distinguant variables explicatives et variables à expliquer. Toute trace peut prendre une valeur importante (le passage par tel site d’information repéré par des cookies) dès lors qu’elle se trouve corrélée à une autre (le like pour telle ou telle marque) à partir de traitement massif de données où l’on peut « matcher », tester des corrélations en série jusqu’à trouver un résultat significatif statistiquement sans pour autant qu’une explication soit nécessaire. La qualité de ce traitement massif sera démontrée par sa seule capacité à prédire les comportements à venir. Le basculement vers le prédictif et l’abandon de l’explicatif constitue un changement majeur qui ne peut fonctionner qu’à la condition de réduire les phénomènes étudiés à des éléments simples, peu équivoques et d’abandonner toute tentative de reconstitution de chaînes causales. L’action des marques doit pouvoir être conduite le plus rapidement possible car elle joue avant tout sur les perceptions qui sont elles-mêmes provoquées par les actions en ligne de ces mêmes marques. Le trait complémentaire des qualités du big data est en effet la vélocité (après le volume et la variété) et il ne peut être obtenu que par la capacité des plates-formes à suivre et à récupérer les signaux d’activité produits sous forme de traces par les internautes : les patterns de comportement peuvent ainsi être fournis immédiatement, pour une réaction rapide, qui permettra de tester d’autres façons de conquérir le public des marques.

L’extension du domaine des marques et des plates-formes

6Les algorithmes de traitement de ces traces sont directement adaptés à la nature nativement numérique des traces en question qui dépendent totalement des propriétés des plates-formes qui les génèrent, les GAFA en étant les exemples les plus visibles, avec Twitter particulièrement apprécié des marques. Mais, comme on le sait, ces traces ne concernent pas uniquement les marques. L’activité politique, la sphère publique sont elles-mêmes activement présentes sur ces plates-formes et produisent autant d’indices qui relèvent des mêmes enjeux, observables dans les batailles de tweets fréquentes entre certaines personnalités politiques. Les scientifiques ne sont pas absents de ces modèles de comportement puisque leur réputation se joue largement sur leur capacité à faire circuler leurs énoncés en combinant médias traditionnels (articles et livres), médias de masse et médias numériques : l’omniprésence des indices et des rankings finit par exercer une pression non négligeable sur leur activité (Bruno et Didier, 2013). La culture en général ne parvient à fédérer ses publics qu’à la condition d’exister sur les réseaux numériques en développant des stratégies qui sont très proches de celles mises en place par les marques, et cela depuis les grandes expositions toujours plus gigantesques jusqu’au plus petit label de musique. L’extension du domaine des traces, que l’on voit à travers l’obsession du suivi du buzz dans tous les domaines avec les outils fournis par les plates-formes elles-mêmes (analytics) ou par des agences spécialisées, se fait en suivant les modèles diffusés par les marques. Les effets de miroir ainsi produits sont désormais partagés par des milieux très différents et indiquent bien que nous sommes passés à cette « économie d’opinion » qu’analyse André Orléan (2011) et qui s’étend à tous les domaines de la vie. Ce jeu de miroir qui vise à faire bouger les perceptions est propice à l’émergence de bulles, comme la finance l’a bien démontré. Par la médiation des marques, le modèle de la finance s’est imposé à tous et a été amplifié par la puissance d’attraction des plates-formes. La chaîne ainsi constituée soutient tout le big data et c’est elle qui doit être gardée en perspective pour comprendre l’ampleur du changement contemporain. L’alignement de médiations comporte ainsi :

7- des entités nouvelles : les traces ;

8- un principe de validation : la traçabilité ;

9- un acteur de référence : les marques ;

10- des opérateurs de calcul : les plates-formes ;

11- des métriques : les scores ;

12- des critères de qualité des données : volume, variété et vélocité ;

13- des modalités de compte rendu : les corrélations prédictives.

14Face à une telle force de frappe et à une telle influence d’un mode de compte rendu des activités sociales qui s’imposent bien au-delà de son domaine d’origine, trois postures peuvent se présenter :

15- l’une qui tente de reprendre le cours des sciences sociales des générations précédentes pour appliquer leurs méthodes et leurs concepts aux traces du web : une bonne part des humanités numériques adopte cette posture ;

16- l’autre qui accepte ce nouveau monde des traces en s’immergeant dans ses exigences et ses principes en abandonnant les traditions et les impératifs scientifiques, et qui est résumée par l’argument de la « fin de la théorie » annoncée dans Wired par Chris Anderson (2008) et mis en effet en pratique dans les méthodes du big data ;

17- la dernière qui s’affronte à la radicale nouveauté de cette configuration sociotechnique et qui tente de comprendre quelle peut être la place des sciences sociales dans la production de nouvelles conventions pour exploiter ces traces. Elle doit trouver un cadre conceptuel nouveau pour ces traces, qui valent pour elles-mêmes car elles ne sont plus générées que dans cet univers numérique.

18Cependant cette tâche apparemment complexe et lourde politiquement ne peut être perçue dans toute sa portée sans faire référence aux moments historiques qui ont conduit à l’émergence des conventions ayant permis l’affirmation des sciences sociales des générations précédentes, en nous appuyant notamment sur les travaux de Desrosières (1993).

19Le tableau suivant permet de comparer des montages sociohistoriques pourtant si différents à première vue.

1regénération 2egénération 3egénération
Concept du social Société(s) Opinion(s) Réplique(s)
Dispositifs de collecte Recensement Sondage Plates-formes/big data
Principe de validation Exhaustivité Représentativité Traçabilité
Co-construction institutions/ recherche Registre/enquête Audience/sondage Traces/méthodes numériques réorientées
Acteurs majeurs de référence (et financeurs) États Mass media Marques
Acteurs opérationnels du calcul Instituts nationaux Instituts de sondage Plates-formes du web (GAFA)
Auteurs fondateurs Émile Durkheim George Gallup, Paul Lazarsfeld Michel Callon, Bruno Latour, John Law
Problèmes clefs des approches scientifiques Division du travail et État providence Propagande et influence des médias (mesures d’audience) Science et technologie (scientométrie)
Conjoncture technique Machines de Herman Hollerith (calcul mécanographique) Informatique (Alan Turing et John Von Neuman) Internet, web et big data
Formats sémiotiques Tableaux croisés et cartes topographiques Courbes et histogrammes/diagrammes circulaires (camemberts) Graphes et timelines
Métriques Statistique Sampling Topologie (scores)
Statut des entités Sujets Signes Objets
Critères techniques de qualité des données Pertinence, précision, actualité, accessibilité, comparabilité, cohérence Intervalle de confiance, probabilités Volume, variété et vélocité (big data)
Modalités dominantes de compte rendu Explications Corrélations descriptives puis prédictives Corrélations prédictives

La société de Durkheim : une invention devenue évidente

20La première étape des générations de sciences sociales fut celle où Durkheim réussit à faire exister la « société », à tel point que l’évidence de la société ne souffre plus discussion pour le sens commun. Le terme ne date pas de Durkheim, même si son histoire n’est pas si longue. L’archéologie de la notion de société pourrait être enrichie notamment par l’appel aux travaux de Quételet (1846) produisant son « homme moyen » qui resta longtemps la clef de toute la statistique. À la fin du xixe siècle cependant et avec le coup de génie de Durkheim en grande partie, se produit un changement d’existence pour la notion de société. Avec Le suicide (Durkheim, 1897), la méthode se met en place pour prolonger la discussion des types initiée dans La division du travail social (id., 1893), ce qui va faire émerger l’anomie comme situation problématique. Mais l’appui sur les registres de données produites par les États, issus de ses diverses composantes (ministères, préfectures, administrations) devient clef dans la démonstration. Ce sont en effet ces agrégats qui sont expliqués ou explicatifs, grâce à une méthode de comparaison entre pays, entre régions, départements ou districts quand c’est possible et nécessaire. La méthode dépend entièrement des données disponibles. En organisant tout son dispositif de preuve autour de ces statistiques administratives nationales, Durkheim trouve un analogue quantitatif à son parti pris conceptuel qui place la « société » dans un statut à part de toutes les manifestations et comportements individuels. Le « tout » de Durkheim devient une entité de second degré (Latour, 2005), la « société », alors que les recensements et autres registres de données des États ne font pourtant qu’un travail de récupération d’événements administratifs individuels (état civil, procédures judiciaires, etc.), formatés dans des catégories identiques et agrégés pour faire apparaître des comportements de populations. Toute la force de conviction de Durkheim sera de faire exister ces populations statistiques comme équivalentes de sa « société ».

21L’appareil statistique rend visible cette société de la même façon que le sondage rendra visible l’opinion et dès lors, indépendamment de la validité statistique, le cadrage (framing) ainsi opéré gagne en puissance. Il faut en effet remarquer qu’une forme d’« alliance objective » se constitue entre les producteurs de données issus des administrations de l’État et les sciences sociales naissantes. Ensemble, ils vont produire l’entité « société » comme l’objet à suivre par l’État pour des raisons de gouvernement et à expliquer pour des raisons scientifiques. Le résultat tiendra dans une évidence partagée : la « société » existe, et les méthodes qui permettent de la faire exister n’ont pas lieu d’être interrogées puisqu’elles démontrent à la fois leur valeur scientifique et leur valeur opérationnelle, outil de preuve et outil de gouvernement comme le dit Desrosières (2014). Processus et alliances tout à fait identiques à celles que l’on rencontre entre les médias et les instituts de sondage qui s’entendront pour faire exister l’opinion et la rendre naturelle, taken for granted, après un long travail de montage de conventions.

Le temps des calculs et des machines à calculer

22Dans le cas de Durkheim, il faut noter des voisinages historiques, qui ne valent pas causalité mais qui permettent de comprendre le gain de puissance de cette façon de faire exister la société. En effet, en 1890, Herman Hollerith utilise sa machine pour réaliser le recensement américain. En effet, le Bureau of the Census n’avait pas réussi à finir de traiter le recensement précédent qui datait de 1880 lorsqu’il fallut déjà lancer le suivant. Un changement de technique était nécessaire et disponible. La machine de calcul mécanographique de Hollerith fit le travail et fut commercialisée pour les mêmes objectifs de recensement dans plusieurs pays dont la France. La compagnie de Hollerith sera ensuite transformée par Watson en IBM en 1926. On comprend mieux comment la puissance gagnée dans le dénombrement et la description des populations consolide le statut de l’État et lui offre des sources de renseignements supposés utiles à son gouvernement. La prétention à l’exhaustivité du comptage accomplit la promesse du concept de société : les dispositifs techniques de saisie du tout existent, ce sont les machines de Hollerith équipant les procédures de recensement.

23La performance de Durkheim aura ainsi été de faire tenir un assemblage de médiations fort puissant :

24- des recensements,

25- assemblés et formatés par des administrations publiques,

26- sous garantie d’exhaustivité,

27- pour des États,

28- en vue d’un gouvernement,

29- pour produire de la « société » (à partir des populations),

30- à l’aide de machines de calcul mécanographiques.

La construction de l’« opinion »2

  • 2 Les travaux de Loïc Blondiaux (1998) et de Joëlle Zask (2000) développent largement cette histoire.

31En donnant à l’époque actuelle des traces numériques le libellé de « 3G », nous plaçons ainsi Durkheim et la société en position de première génération, ce qui donne à l’émergence de l’opinion à la fin des années 1930 la place de la 2G. En 1936 en effet, George Gallup parvint à prédire l’élection de Roosevelt face à Landon avec une étude sur cinquante mille personnes. Ce qu’il fondait ainsi dans ce geste spectaculaire, c’était la fiabilité du sondage et des méthodes d’enquête par échantillonnage, le sampling, qui certes perdait l’exhaustivité des enquêtes sur une population entière mais parvenait à des résultats corrects à condition de respecter des conditions de représentativité. Les méthodes ainsi appliquées à la vie politique et à une épreuve grandeur nature aussi importante qu’une élection présidentielle avaient été testées auparavant sur les études de lectorat pour lesquelles Gallup avait rendu opérationnel l’échantillonnage stratifié. L’opération de légitimation de l’échantillonnage en général réussit grâce aux performances de Gallup, entièrement dédiées à d’autres mondes sociaux, ceux de l’« opinion publique », et non plus de la « société » qui restait la référence des statisticiens de l’État fédéral et de ses bureaux, lesquels travaillaient eux aussi à produire des règles d’échantillonnage aléatoire (Didier, 2009). C’est bien dans le contexte des médias de masse que leur importance fut reconnue. Le nom de Gallup doit être de ce point de vue associé à celui de Paul Lazarsfeld, qui, dans la même période, en 1936, lançait un « Radio Research Program », fondé sur ses travaux d’étude d’audience de la radio commencés en 1930. Le lien entre les médias de masse et la vie politique est ainsi constitutif des nouvelles méthodes statistiques d’échantillonnage stratifié (certes fondées sur des quotas et non aléatoires). C’est l’« opinion publique » qui prend une existence mesurable, par ces méthodes d’échantillonnage dont la puissance performative dépassera largement la phase expérimentale. Ces mesures permettent aussi de suivre les effets de ces campagnes publicitaires sur les esprits des consommateurs, donnant un essor sans précédent au marketing qui pilote des stratégies de communication de plus en plus sophistiquées à l’échelle d’un pays (Cochoy, 1999). Cela nous permet de faire directement le parallèle avec la constitution d’un marché mondial à travers la domination des plates-formes numériques. Google, Apple, Facebook et Amazon ont produit, au même titre que les porte-conteneurs, le même effet d’échelle territoriale que la radio et le chemin de fer pour le territoire des marchés nationaux.

L’opinion publique existe, je l’ai mesurée

32Le travail, réalisé par Gallup pour le côté opérationnel (Gallup, 1939) et Lazarsfeld (Katz et Lazarsfeld, 1955) pour le côté scientifique, n’est donc pas une simple opération marketing ou un lifting des sciences sociales : il fournit à des sociétés entières les méthodes pour s’autoanalyser, pour se représenter elles-mêmes comme opinions. Gabriel Tarde (1989) avait beau avoir mis en évidence l’importance de ces opinions, c’est seulement lorsque les métriques sont mises en place et produites de façon conventionnelle que l’opinion finit par exister. Et seules la commande des médias et leur capacité à produire de façon unifiée un public sur un territoire national ont permis de faire durer ce montage méthodologique. Le « tout » dont parlent les sondages, c’est en fait à l’origine le public constitué par les médias, qui font émerger cette audience comme opinion publique, la rendent visible et mesurable en permanence. Les précautions scientifiques de rigueur sont prises grâce aux intervalles de confiance (définis en 1934 par Jerzy Neyman), qui permettent de garder une référence avec l’exhaustivité de la population étudiée. À cet instant, chacun sait que l’opinion existe, quel que soit le travail de compte rendu des artefacts nécessaires pour la faire exister et quoi qu’en dise Bourdieu (dans son article de 1984, « L’opinion publique n’existe pas », dans lequel il cible plus précisément « l’opinion publique des sondages »). Le travail de convention (Eymard-Duvernay et al., 2004) ainsi réussie porte sur les mêmes assemblages de médiations déjà évoqués pour les traces :

33- des « surveys » et des « polls » (à partir d’expressions individuelles cadrées par des questions et ainsi rendues calculables),

34- assemblés et formatés par des instituts de sondage,

35- sous garantie de représentativité d’échantillons (sampling),

36- pour des médias,

37- en vue d’un monitoring,

38- pour produire de l’opinion publique (et des audiences).

39Nous pouvons ainsi voir les analogies et mesurer la distance et le travail nécessaire pour produire des conventions de qualité équivalentes qui fassent exister « les traces » comme entités reconnues pour les sciences sociales. L’opinion et la société sont désormais des réalités qui vivent leur vie et ne posent plus question grâce à la qualité des montages techniques et institutionnels qui ont stabilisé leur mode d’apparition. Les dispositifs techniques de calcul ont en effet un pouvoir d’agir que l’on retrouve pour chaque génération de sciences sociales, comme on l’a vu dans le cas des machines Hollerith pour les recensements des sciences sociales de première génération. Dans le cas de l’opinion publique, la perte de l’exhaustivité doit se compenser par un suivi plus fréquent et une réactivité plus importante nécessaire pour les médias. Seules les capacités des ordinateurs, associés aux réseaux téléphoniques pour la transmission des données, permettront à partir des années 1950 d’unifier et d’accélérer les calculs de ces échantillons représentatifs à une échelle nationale. Aujourd’hui ce sont les plates-formes du web qui produisent les traces que les sciences sociales peuvent utiliser pour leur propre compte. Dans ce cas, la dépendance technique est totale car il n’existe pas d’autres moyens de faire émerger ces liens entre sites, ces traces laissées par des clics et autres comportements des internautes. C’est aussi pour cela que le couplage entre marques/réseaux numériques/traces est nettement plus fort que celui entre médias/informatique/opinion ou entre États/calcul mécanographique/société. Mais cela nous oblige à fonder les conventions des sciences sociales de troisième génération encore plus solidement pour ne pas être embarqués dans la vague puissante du big data qui prétendrait rendre compte et fournir la réflexivité nouvelle à la place des sciences sociales.

Les conventions nécessaires pour les sciences sociales de troisième génération

40Pour fonder ces conventions, les propriétés du big data doivent être reconnues en constatant la distance qu’elles font apparaître avec les exigences des sciences sociales des générations précédentes.

41Ainsi les critères de qualité du big data sont souvent résumés aux 3V : volume, variété, vélocité.

Volume et exhaustivité

42Le volume correspond à l’exigence d’exhaustivité traduite sous un mode quelque peu limité, puisque rien ne permet de définir les frontières des univers de données rassemblées. Dès lors, il conviendra de fixer un équivalent de ce volume qui se rapproche des exigences traditionnelles de l’exhaustivité, sans pour autant pouvoir les suivre lorsqu’on traite du web. Nous devrons cependant faire notre deuil de l’exhaustivité et ne plus chercher à trouver de tout de substitution.

Variété et représentativité

43Le second critère, la variété, est lui aussi une forme de transcription de l’exigence de représentativité qui a permis à toutes les sciences sociales de procéder par enquêtes, par sondages, à base d’échantillonnage. Là encore, le critère est une version lâche de la représentativité, qui suppose que l’on accepte un niveau suffisant de variété. Nous introduisons ici un autre élément qui doit rester clef dans le travail de convention à produire pour les sciences sociales de troisième génération : aucune description du social-traces ne peut plus être produite en généralité. La prolifération des traces rend paradoxalement impossible toute prétention à une référence à un tout posé a priori ou constitué a posteriori (Latour et al., 2012). Les sciences sociales doivent accepter de ne traiter que des « issues », ou des points de focalisation d’attention, dont le numérique peut garder les traces, des traces qui seront spécifiques à chaque issue. Cela réduit considérablement la portée totalisante des prétentions du big data mais cela rend possible une certaine forme de représentativité et d’exhaustivité. En effet, sous ces conditions de limitations à des issues (Marres, 2007, 2013), il devient possible de rendre compte de propagations ou de flux dont on possède désormais les traces.

Vélocité et traçabilité

44Enfin, le dernier critère, la vélocité ne trouve guère d’équivalent dans les sciences sociales de première et deuxième générations. Une branche des sciences du web s’est, elle aussi, emparée de cette question de la vélocité à sa façon en exploitant les traces des mèmes qui se propagent sur le web (comme les images animées en .gif qui en sont devenues les prototypes). Il est très significatif que Jon Kleinberg, celui-là même qui avait exporté les méthodes de la scientométrie (Courtial et al., 1993) vers l’étude de la topologie du web et qui fut repris par Google, se soit intéressé depuis plusieurs années (Kleinberg, 2002) à la mise au point d’un « meme tracker » avec Leskovec (Leskovec et al., 2009). Leur étude la plus fameuse a porté sur la propagation des citations durant la campagne Obama, ce qui leur permit de réaliser une visualisation spectaculaire de la focalisation de l’attention en courbes à montée et descente très rapides (streams and cascades) autour de certains incidents de la campagne. Leur méthode agrège tous les types de traces que peuvent laisser ces citations, traitées comme des chaînes de caractère dont on peut trouver la trace dans tout le web, et en produit une métrique ancrée dans le temps, au jour le jour, voire moins avec Twitter (l’unité de mesure étant devenue le Tweet per Second). Nous dirons donc qu’il convient de considérer la traçabilité comme le critère essentiel de qualité des entités que l’on peut étudier, ce qui se traduira par les conditions minimales suivantes : continuité des traces, puissance de connectivité, datation précise.

Conventions académiques et conventions des plates-formes

45Les sciences sociales de troisième génération ne pourront guère faire autrement que de s’associer aux plates-formes et aux marques pour produire la science des traces. À la condition de produire le cadre conceptuel qui permettra de constituer les objets scientifiques issus de l’exploitation des traces, objets propres aux sciences sociales et non réductibles à l’usage fait par les marques. Aux couples registre/enquête, puis audience/sondages d’opinion, il faut parvenir à ajouter un couple traces/X, X étant la place qui reste à définir pour la reprise des traces par les sciences sociales.

46Nous proposons de sélectionner des méthodes numériques réorientées (repurposing, Rogers, 2013) et de parler alors de « répliques ». Le terme présente une parenté avec les mèmes (la mémétique considère le mème comme un réplicateur) car les traces nous intéressent pour suivre des réplications (replicas), des imitations au sens tardien (Tarde, 2001 [1895]) (et donc aussi des oppositions et des adaptations). Il est aussi apparenté au monde de l’échange langagier pour désigner des réparties dans un dialogue (replies), dans une conversation, qui aurait dû être au centre des sciences sociales selon Tarde et que nous avions étudiée dans le suivi des répliques d’émissions de télévision (Boullier, 2004). Il permet ensuite de filer une métaphore suggestive avec les répliques des tremblements de terre (aftershock). Dans la même veine, nous le traduirons par « vibrations » en anglais car aucun équivalent ne convient pour répliques.

47L’intérêt principal de ce terme tient dans le décentrement réalisé vis-à-vis des notions d’acteurs, de stratégies et de représentations, qui ont toutes leur légitimité dans le cadre des autres sciences sociales mais qui ne permettent pas de rendre compte du pouvoir d’agir des entités circulantes que sont les répliques. Nous ne pouvons pas dire a priori quelle est la taille ni quel est le statut de ces entités, car ce sont seulement les investigations de corpus de masse qui peuvent nous les faire repérer dès lors que leur réplication émerge des capteurs que nous exploitons, certes grâce aux plates-formes mais selon nos objectifs.

48Le principe d’une sociologie des répliques repose sur l’impératif de suivre des éléments, sans pour autant savoir comment ils vont s’agréger pour faire des « tout » à géométrie variable. Le parti pris est donc suiviste plus qu’« élémentariste » et doit éviter de devenir « atomiste » car la géométrie variable reste une qualité que nous avons apprise de la théorie de l’acteur-réseau (Akrich et al., 2006). L’objet d’étude n’est pas tant l’élément, qui peut avoir des attributs très variés, ni seulement les agrégats, ce que l’on tend à faire avec les clusterisations des méthodes de graphes, mais bien le processus de circulation et d’agrégation ou de désagrégation, les moments de bifurcation des courbes. L’objet de cette science des répliques est bien l’agentivité des répliques qui se propagent et qui finissent par nous prendre. L’approche par les répliques est alors une entrée vers une monadologie (Tarde, 1893) (qui se différencie radicalement d’une vision atomiste). Nous avons commencé à le faire sans l’appareillage statistique dans le cas des tags de photos dans la base de données Flickr (Boullier et Crépel, 2013) en montrant le pouvoir de connexion d’un tag « bras croisés » sur une photo de Savorgnan de Brazza commentée par R. Barthes : le « punctum » circulait mieux que le « studium » et produisait de nouvelles relations. Les travaux réalisés sur les n-grams étudiés à partir de Google Books (Michel et al., 2011) ont permis de montrer des évolutions de la langue anglaise (le prétérit des verbes irréguliers est la réplique que l’on suit). Lev Manovich (2012) a constitué une base de mangas de plus d’un million d’exemplaires pour comparer les attributs les plus élémentaires comme le contraste et produire une vision inédite des influences entre courants. Il a exploité des outils de similarité identiques pour réaliser des comparaisons culturelles entre pays à partir de millions de photos sur Instagram ou sur la place Maïdan à Kiev, en suivant cette réplique qu’est Maïdan. M. Le Béchec (2014) a réalisé à la main un suivi de la présence des vignettes des drapeaux bretons dans les sites qui affichent un lien avec la région pour montrer comment une telle réplique, qu’elle nomme « signe transposable », circule bien au-delà d’un territoire. Tous ces exemples exploitent certaines des propriétés de ces traces, variété, volume ou vélocité, dans des proportions différentes. Notons qu’aucun ne se soucie d’expliquer les caractéristiques de ces propagations par des causes (externes ou internes, qui seraient « plus sociales ») et qu’ils en font seulement l’inventaire, qu’ils les suivent, pour rendre compte de leur pouvoir de circulation propre.

L’extension du domaine des traces

49Cependant, l’ère des traces ne fait que commencer, et les plates-formes ne sont pas et ne seront pas les seuls fournisseurs de traces en masse. L’Internet des objets n’est plus un fantasme d’ingénieur, et la vie ordinaire commence à se peupler d’échanges sans contact, de puces RFID et d’autres géolocalisations automatiques qui dépendent non plus des personnes mais des objets eux-mêmes. Il ne sera plus possible de renvoyer à des personnes, à des entités sociales au sens des sciences sociales de première et deuxième générations et il n’y a pas de raison pour que les sciences sociales ne s’emparent pas de ces nouvelles sources. La théorie de l’acteur-réseau et toutes les approches qui ont pris en compte la matérialité des échanges (ex : cognition distribuée, située, théorie du support, médiologie, etc.) et l’interobjectivité (Latour, 1994) ne seront pas surprises par cette nécessaire prise en compte d’entités matérielles équipées de capteurs, d’effecteurs, de traceurs, etc.

Conclusion

50Le projet de « convention pour une troisième génération de sciences sociales » constitue de fait une rupture avec les traditions précédentes sur plusieurs points, mais présente l’avantage de donner à chaque génération sa place,  en les mettant toutes en perspective sociologique et historique, ce qui vaut offre diplomatique. La nouvelle posture nécessaire pour traiter les traces du big data comporte les dimensions suivantes qui valent programme de travail :

51- le point de vue perspectiviste (au sens de Viveiros de Castro, 2009) est central : les sciences sociales se mettent à l’école du big data et se laissent affecter par la radicale nouveauté de ce continent ;

52- ce continent possède ses propres modes d’existence et aucune analyse ne peut être transposée sans risque vers les autres niveaux de réalité (société, opinion) : les traces sont nativement digitales et ne peuvent valoir en dehors de leurs conditions de production ;

53- les entités circulantes sont différentes des entités connues par les sciences sociales : il s’agit de suivre non plus des sujets (société) ni des signes (opinion), mais des objets agissants ;

54- la théorie des répliques comporte une théorie étendue de l’agency, non réduite aux humains. Les humains sont agis par ces répliques comme toutes les sciences sociales l’ont toujours affirmé mais ce sont de petites différences qui se propagent et qu’il faut suivre ;

55- l’attention est portée prioritairement aux ondes et à la propagation et non aux éléments pour eux-mêmes ;

56- aucune totalité ni aucune origine ne peuvent être recherchées pour le suivi de ces répliques : elles ne sont agissantes que dans des régions du monde (les issues) quand bien même, comme les monades, elles portent en elles le monde entier.

Haut de page

Bibliographie

Des DOI sont automatiquement ajoutés aux références par Bilbo, l'outil d'annotation bibliographique d'OpenEdition.
Les utilisateurs des institutions qui sont abonnées à un des programmes freemium d'OpenEdition peuvent télécharger les références bibliographiques pour lequelles Bilbo a trouvé un DOI.
Format
APA
MLA
Chicago
Le service d'export bibliographique est disponible aux institutions qui ont souscrit à un des programmes freemium d'OpenEdition.
Si vous souhaitez que votre institution souscrive à l'un des programmes freemium d'OpenEdition et bénéficie de ses services, écrivez à : contact@openedition.org

Références bibliographiques

Akrich, Madeleine, Callon, Michel et Latour, Bruno, 2006, Sociologie de la traduction. Textes fondateurs, Paris, Presses des Mines de Paris.

Anderson, Chris, 2008, « The end of theory: The data deluge makes the scientific method obsolete », Wired Magazine. Consultable en ligne : <http://archive.wired.com/science/discoveries/magazine/16-07/pb_theory>.

Blondiaux, Loïc, 1998, La fabrique de l’opinion. Une histoire sociale des sondages, Paris, Éditions du Seuil.

Boullier, Dominique, 2004, La télévision telle qu’on la parle. Trois études ethnométhodologiques, Paris, L’Harmattan.

Format
APA
MLA
Chicago
Le service d'export bibliographique est disponible aux institutions qui ont souscrit à un des programmes freemium d'OpenEdition.
Si vous souhaitez que votre institution souscrive à l'un des programmes freemium d'OpenEdition et bénéficie de ses services, écrivez à : contact@openedition.org

Boullier, Dominique et Crépel, Maxime, 2013, « Biographie d’une photo numérique et pouvoir des tags : classer/circuler », Revue d’anthropologie des connaissances, vol. 7, no 4, p. 785-813.
DOI : 10.3917/rac.021.0785

Boullier, Dominique et Lohard, Audrey, 2012, Opinion mining et sentiment analysis. Méthodes et outils, Paris, OpenEditions Press.

Bourdieu, Pierre, 1984, « L’opinion publique n’existe pas », in Questions de sociologie, Paris, Éditions de Minuit, p. 222-235.

Bruno, Isabelle et Didier, Emmanuel, 2013, Benchmarking. L’État sous pression statistique, Paris, La Découverte.

Cochoy, Franck, 1999, Une histoire du marketing. Discipliner l’économie de marché, Paris, La Découverte.

Courtial, Jean-Pierre, Callon, Michel et Penan, Hervé, 1993, La scientométrie, Paris, Presses universitaires de France.

Desrosières, Alain, 1993, La politique des grands nombres. Histoire de la raison statistique, Paris, La Découverte.

Desrosières, Alain, 2014, Prouver et gouverner : une analyse politique des statistiques publiques, recueil posthume de textes choisis et rassemblés par Emmanuel Didier, La Découverte.

Didier, Emmanuel, 2009, En quoi consiste l’Amérique ? Les statistiques, le New Deal et la démocratie, Paris, La Découverte.

Durkheim, Émile, 1893, De la division du travail social, Paris, Alcan.

Durkheim, Émile, 1897, Le suicide, Paris, Alcan.

Eymard-Duvernay, François, Favereau, Olivier, Orléan, André, Salais, Robert et Thévenot, Laurent, 2004, « L’économie des conventions ou le temps de la réunification dans les sciences sociales », Problèmes économiques, no 2838, La Documentation française, Paris.

Foucault, Michel, 1966, Les mots et les choses, Paris, Gallimard.

Gagnepain, Jean, 1982, Du vouloir dire. Traité d’épistémologie des sciences humaines, t. I : Du signe, de l’outil, Paris, Pergamon Press.

Gallup, George, 1939, Public Opinion in a Democracy, Herbert L. Baker Foundation, Stafford Little Lectures.

Katz, Elihu et Lazarsfeld, Paul F., 1955, Personal Influence: the part played by the people in the flow of mass communication, Glencoe, Free Press.

Kleinberg, Jon M., 2002, « Bursty and hierarchical structure in streams », in compte rendu des 8e ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Kleinberg, Jon M., Gibson, David et Raghavan, Prabhakar, 1998, « Inferring web communities from link topology », in compte rendu des 9e UK Conference on Hypertext and Hypermedia (HYPER-98), New York, 20-24 juin, p. 225-234.

Latour, Bruno, 1994, « Une sociologie sans objet ? Remarques sur l‘interobjectivité », Sociologie du travail, no 4, p. 587-607.

Latour, Bruno,2005, Reassembling the Social: An Introduction to Actor-Network-Theory, Oxford, Oxford University Press. Traduction française : Changer la société. Refaire de la sociologie, Paris, La Découverte, 2006.

Latour, Bruno, Jensen, Pablo, Venturini, Tommaso, Grauwin, Sébastian et Boullier, Dominique, 2012, « The whole is always smaller than its parts’ – A digital test of Gabriel Tarde’s monads », British Journal of Sociology, vol. 63, no 4, p. 590-615.

Format
APA
MLA
Chicago
Le service d'export bibliographique est disponible aux institutions qui ont souscrit à un des programmes freemium d'OpenEdition.
Si vous souhaitez que votre institution souscrive à l'un des programmes freemium d'OpenEdition et bénéficie de ses services, écrivez à : contact@openedition.org

Le Béchec, Mariannig et Boullier, Dominique, 2014, « Communautés imaginées et signes transposables sur un “web territorial” », Études de communication, no 42, p. 113-125.
DOI : 10.4000/edc.5737

Leskovec, Jur, Backstrom, Lars, et Kleinberg, Jon M., 2009, « Meme-tracking and the dynamics of the news cycle », compte rendu de la 15eACM SIGKDD International Conference on Knowledge Discovery and Data Mining, p. 497-506.

Manovich, Lev, 2012, « Media visualization: Visual techniques for exploring large media collections », in Kelly Gates (éd.), The International Encyclopedia of Media Studies: Media History and the Foundations of Media Studies, vol. 6 : Media Studies Futures, Maiden, Blackwell.

Marres, Noortje, 2007, « The issues deserve more credit: pragmatist contributions to the study of public involvement in controversy », Social Studies of Science, 37, p. 759-778.

Marres, Noortje et Weltevrede, Esther, 2013, « Scraping the social? Issues in live social research », Journal of Cultural Economy, vol. 6, no 3, p. 313-335.

McLuhan, Marshall, 1964, Understanding Media: The Extension of Man, Londres, Routledge et Kegan.

Format
APA
MLA
Chicago
Le service d'export bibliographique est disponible aux institutions qui ont souscrit à un des programmes freemium d'OpenEdition.
Si vous souhaitez que votre institution souscrive à l'un des programmes freemium d'OpenEdition et bénéficie de ses services, écrivez à : contact@openedition.org

Michel, Jean-Baptiste et al., 2011, « Quantitative analysis of culture using millions of digitized books”,  Science, vol. 331, no 6014, p. 176-182.
DOI : 10.1126/science.1199644

Orléan, André, 2011, L’empire de la monnaie. Refonder l’économie, Paris, Éditions du Seuil.

Quételet, Adolphe, 1846, Lettre à S.A.R. le Duc régnant de Saxe Cobourg et Gotha, sur la théorie des probabilités, appliquée aux sciences morales et politiques, Bruxelles, Hayez.

Rogers, Richard, 2013, Digital Methods, Cambridge, MIT Press.

Tarde, Gabriel, 1893, Monadologie et sociologie, Paris, Alcan.

Tarde, Gabriel, 1989 [1901], L’opinion et la foule, Paris, Presses universitaires de France.

Tarde, Gabriel, 2001 [1895], Les Lois de l’imitation, Paris, Les empêcheurs de penser en rond.

Viveiros de Castro, Eduardo, 2009, Métaphysiques cannibales, Paris, Presses universitaires de France.

Zask, Joëlle, 2000, L’opinion publique et son double, livre I : L’opinion sondée, livre II : John Dewey, philosophe du public, Paris, L’Harmattan.

Haut de page

Notes

1 Google, Apple, Facebook, Amazon.

2 Les travaux de Loïc Blondiaux (1998) et de Joëlle Zask (2000) développent largement cette histoire.

Haut de page

Pour citer cet article

Référence papier

Dominique Boullier, « Vie et mort des sciences sociales avec le big data », Socio, 4 | 2015, 19-37.

Référence électronique

Dominique Boullier, « Vie et mort des sciences sociales avec le big data », Socio [En ligne], 4 | 2015, mis en ligne le 28 mai 2015, consulté le 04 décembre 2017. URL : http://socio.revues.org/1259 ; DOI : 10.4000/socio.1259

Haut de page

Cet article est cité par

  • Bigot, Jean-Edouard. Julliard, Virginie. Mabi, Clément. (2016) Humanités numériques et analyse des controverses au regard des SIC. Revue française des sciences de l’information et de la communication. DOI: 10.4000/rfsic.1783
  • Ouakrat, Alan. Mésangeau, Julien. (2016) Resocialiser les traces d’activités numériques : une proposition qualitative pour les SIC. Revue française des sciences de l’information et de la communication. DOI: 10.4000/rfsic.1795
Haut de page

Auteur

Dominique Boullier

Dominique Boullier est professeur des universités en sociologie à l’Institut d’études politiques de Paris (Médialab) depuis 2009. Docteur en sociologie (École des hautes études en sciences sociales), habilité à diriger des recherches en information et communication, diplômé de linguistique, il a été chercheur contractuel sur les usages des technologies de l’information et de la communication, et chercheur à University of California, Berkeley, chef d’entreprise, directeur du laboratoire Connaissance, Organisation et Systèmes techniques (Costech), université de technologie de Compiègne (UTC) et du Laboratoire des usages en technologies d’information numériques (LUTIN User Lab), Cité des sciences (2004-2008). Il est spécialisé dans les enjeux sociopolitiques du numérique, la portabilité des données personnelles, les technologies cognitives, la ville numérique.

dominique.boullier@sciencespo.fr

Haut de page

Droits d’auteur

© Éditions de la Maison des sciences de l’homme

Haut de page
  • Logo Éditions de la Maison des sciences de l'homme
  • Revues.org