Big Data (mégadonnées). Une introduction

Les ’Big data’, c’est un thème qui n’est plus tout à fait nouveau et doit interroger tout le monde, les chercheurs au premier chef ! Il autorise beaucoup de points de vue qu’il est fécond de multiplier et de rapprocher. Voici un exercice d’introduction qu’il est indispensable de recommencer régulièrement de façon à mieux jauger au fil du temps l’importance respective des problématiques qu’il charrie.
Cet article a tout d’abord été publié article a été publié dans ’UP’ magazine, l’innovation pour défi’ à la date du 23 février 2015.

Préambule sur les caractéristiques importantes des Big Data (BD) [1]

De grandes quantités de données – les Big Data, donc - sans qualité apparente, structurées ou non, mais numériquement analysées avec des outils adaptés, charrient des informations indiquant des tendances quand un échantillon, donc de petites quantités de données souvent qualitativement chargées et plus cohérentes, débouche, après analyse, sur des informations où domine la logique de précision et d’exactitude. Or, aujourd’hui, la majorité des acteurs, les plus puissants d’entre eux au moins, assoient davantage leurs intérêts autour de la tendance. Pourquoi ? Parce qu’elle autorise plus souvent une meilleure mobilisation de moyens adaptés à une fin que le passage obligé par la précision et l’exactitude à laquelle nous étions techniquement contraints jusque-là. La recherche de la tendance constituerait désormais un méta-objectif implicite parce que son pouvoir de prédictibilité serait supérieur. Deux mondes différents se juxtaposent : celui ouvrant sur la tendance, lequel deviendrait dominant, celui fondé sur l’exactitude, lequel deviendrait récessif.

D’autres caractéristiques des BD apparaîtront au long de mon propos. J’ai choisi, néanmoins, d’insister dans ce préambule (qui constitue de fait une « introduction à l’introduction ») sur les premiers enseignements suivants :
- De grandes quantités de données, organisées en catégories non homogènes de multiples échantillons aléatoires et de niveau granulométrique différent, ont donc le pouvoir, grâce aux nouvelles méthodes de traitement numérique, de mieux prévoir « ce qui pourrait advenir » que des petits échantillons de données à catégories homogènes.
- On résume souvent les propriétés originales des BD par la formule des 3 V : volume, variété, vélocité. A l’appui de cette assertion, on invoque le fait que l’accroissement du nombre de données est plus important en termes de « résultat » escompté que l’accroissement de la rapidité des machines et de leurs puces et plus important même que l’accroissement des performances des algorithmes. Ne perdons pas de vue que ce qu’on appelle « résultat » se rapporte avant tout au référentiel suivant : la rapidité d’obtention d’informations pour un coût minimum !
- On remarquera que, par construction, les BD ne considèrent que ce qui est enregistré et ce qui fut enregistré [2] .

Les nouveaux outils des BD sont issus de la révolution numérique

Les machines, puis les réseaux, puis les logiciels : voilà les 3 premiers temps du développement de l’ère numérique depuis 50 ans. Le 4e temps, aujourd’hui donc, serait celui des données.

La puissance de nos outils cognitifs et techniques a beaucoup augmenté. Et elle ne va pas faiblir, bien au contraire ! En effet, aux abaques, aux chiffres arabes, à la comptabilité en partie double, à la notion de « moyenne » (chez Quetelet et Gauss), moments majeurs de cette progression, puis, à l’époque contemporaine, aux outils analogiques, s’est ajouté un outil de performance : la numérisation, lato sensu ; en particulier

- Des satellites en batterie qui autorisent la mise en données par géolocalisation (GPS) [3]
- Des logiciels de reconnaissance optique de caractères qui autorisent le traitement par ordinateur et l’analyse à l’aide d’algorithmes (vous savez, ces processus de calcul qui, une fois formalisés, se passent de toute instruction humaine et sociale !) ; de la sorte, la mise en données offre la possibilité d’indexer lettres, mots, phrases, paragraphes à partir de l’image numérique d’une page.
Car le grand projet qui se profile avec la numérisation, c’est bien « la mise en données de tout phénomène », ce qui revient à quantifier les informations dont on dispose. Dit autrement : sera(it) écartée une représentation du monde comme suite d’événements à interpréter en tant que phénomènes naturels ou sociaux et émergera(it) une représentation du monde pour l’essentiel composée d’informations transformées en données quantifiées. Elle devrait donc modifier notre façon d’appréhender « la réalité », modification qu’il n’est toutefois pas aisé de qualifier. Ce que l’on peut dire, c’est que la commensurabilité, que permet la quantification, semble désormais ne plus avoir de limite de pénétration : elle concerne les individus, les groupes, le réseau, la masse, les organisations désormais considérés comme unités d’analyse commensurables ; mais également les interactions (relations, expériences, états d’âme,…) ; çà mesure, çà se mesure, parce que çà quantifie, çà se quantifie, voie royale du calcul. Le champ de cette ambition où il s’agit toujours de recueillir, puis d’enregistrer des informations [4], de les stocker, de les rendre disponibles, de les traiter, de les utiliser, puis de les retraiter, une ou plusieurs fois,… est considérablement élargi. Ambition, je me répète un peu, qui alimente de manière originale la dynamique quantophrénique qui a pris son essor… voilà 4 siècles !

Une révolution épistémologique également ?

Cette interrogation est d’importance, et particulièrement dans un laboratoire comme le Cetcopra, car elle renvoie à des questions fondamentales pour des chercheurs. Je vais donc m’appesantir sur 3 questions.

La question de la cause, d’abord. Comme source première de sens à travers la relation cause-effet, la cause - qui est sensée supporter la majeure partie de nos raisonnements, de nos analyses et de nos décisions d’action - serait fortement concurrencée par la corrélation. Ah ? Pour les non-familiers de la notion de corréla-tion, en quelques mots : la corrélation, c’est ce qui quantifie la relation statistique entre deux valeurs (la corrélation est dite forte si une valeur a de fortes chances de changer quand l’autre valeur est modifiée et elle est dite faible dans le cas où une valeur a de faibles chances de changer quand l’autre valeur est modifiée). Aussi, quand vous analysez un phénomène par la voie des corrélations, vous n’êtes pas renseigné(e) sur son fonctionnement interne ; en revanche, vous pouvez identifier les meilleures données susceptibles, à une imprécision près, de s’y substituer. La corrélation va donc permettre de repérer les meilleures données substitutives à un phénomène (grâce à une analyse élaborée à partir d’innombrables modèles mathématiques qu’on peut passer en revue, aujourd’hui très rapidement et pour pas cher, comme je l’ai déjà dit) et de mettre en exergue des « phénomènes aux parties liées », c’est-à-dire des phénomènes à la corrélation forte, autorisant ainsi une meilleure analyse prédictive, autrement dit la probabilité d’occurrence, du phénomè-ne qui intéresse.

La question de la prise en charge prédéterminée du raisonnement, ensuite. Il s’agit bien d’une démarche qui suppose le compromis suivant : à condition de bien vouloir accepter de renoncer à chercher a priori quelque chose de précis en vous appuyant sur la cohérence d’un sujet, vous gagnez à pouvoir envisager sans délai des questions que vous n’aurez pas préalablement identifiées ! La corrélation ne recherche donc pas la cause d’un phénomène ; elle ne recherche pas son « pourquoi » via le détour méthodique par l’exactitude, la précision et l’ordre via la catégorisation a priori et la mesure. Non ! En desserrant ces contraintes-là, en consentant à l’idée qu’il s’agit là non d’un défaut à réparer mais bien d’un compromis à accepter, elle permet de prévoir plus efficacement les tendances auxquelles ce phénomène sera soumis. « Savoir quoi, et non pourquoi, n’est-ce pas largement suffisant ? », clament les thuriféraires de la corrélation, lesquels n’hésitent pas à proférer que la démarche par la corrélation est à même de « comprendre le monde » mieux que ne le fait la démarche par la cause et la relation cause-effet. Bref, la corrélation rapprocherait de… la réalité, selon eux, en ce que celle-ci serait d’une part enregistrée ou enregistrable statistiquement, d’autre part, « pratique, plus plastique, impliquant de nombreux facteurs en jeu ».

La question de la théorie et de la vérité, enfin. Il n’en fallait pas davantage, en effet pour annoncer « la fin de la théorie », donc de l’approche moderne de la science fondée sur la recherche de la vérité. L’un des premiers à le faire fut Chris Anderson en 2008 dans un article, fameux aujourd’hui, qui donne lieu à d’innombrables commentaires et exégèses [5]. A ce propos, je renvoie à l’analyse qu’en fait une jeune agrégée de philosophie et doctorante à Paris 1, Anne Alombert, dans un article intitulé « Eléments de débat sur le rôle des Big Data dans la recherche scientifique – Autour de « The end of theory » de Chris Anderson » où elle explique longuement que « la corrélation rendue visible par le traitement algorithmique des données, quelque efficacité prédictive ou descriptive qu’elle puisse avoir, ne remplace en rien une hypothèse théorique » ; que les données numériques ne constituent pas le réel, qu’on en passe toujours par une médiation ; enfin, que la vérité (dont elle avance les aspects qui en conditionnent les régimes) n’est pas à chercher derrière cette médiation. Elle reformule la seule question pertinente à ses yeux, qui est de savoir comment produire de la vérité dans le numérique (et non pas « la vérité du numérique »), c’est-à-dire comment les technologies numériques modifient les manières de construire des vérités.

La possibilité d’intéressantes controverses est donc ouverte. Pour terminer ce point 2, voici, pour l’exemple, quelques repères possibles pour approfondir sa propre réflexion au contact de travaux de recherches en histoire des sciences et des techniques en France. Autour de l’histoire du calcul des probabilités et de la statistique, et des travaux de leur ancien séminaire commun, Michel Armatte et Eric Brian. Autour de l’histoire des mathématiques, et notamment de la géométrie moderne à la fin du 19è siècle, moment clé, Giuseppe Longo. Autour, enfin, de Jean Lassègue, grand spécialiste d’Alan Turing et engagé dans des recherches bien intéressantes sur l’écriture de l’informatique.

La transformation de la chaîne de valeur économique

Aspects et enjeux majeurs, bien sûr, mais à propos desquels je resterai volontaire-ment plus superficiel. Ces BD, où les trouve-t-on ? : dans les entreprises ; dans les puissances publiques (Etats et collectivités diverses) ; dans les ONG ; dans les objets personnels ou collectifs connectés dont le Web et les réseaux sociaux !

Les données rassemblées en grand nombre ont elles une valeur ? En soi, non ! Ont-elles néanmoins une importance implicite, latente, qui puisse leur conférer une valeur ? La réponse est oui ! Leurs propriétés descriptive et prédictive peuvent se transformer en avantage concurrentiel pour des organisations, surtout pour les entreprises : elles prendront alors une valeur économique [6].

Comment mesurer la valeur économique des données ? Les économistes ont souvent avancé la proposition selon laquelle l’information constitue un « bien non rival ». Tu parles, Charles ! La tentation d’une démarche financière est trop forte qui conduit à déterminer une « valeur d’option » aux données, créant de fait un « marché de la connaissance » sur la base d’opérations de « formatisation » (donc de standardisation) hautement stratégiques pour la création des marchés de base ! [7] Hasardeux, ce « marché de la connaissance », bien sûr, d’autant qu’on ne sait pas trop bien comment les comptabiliser au bilan des entreprises, c’est-à-dire en faire des catégories d’actifs incorporels comme des marques, des talents, des stratégies,… ! Mais cela ne gêne ni les financiers ni les « marketeurs »… !

Les entreprises engagées dans le « service en BD », on peut les différencier en 3 types : 1/ celles qui collectent et/ou qui détiennent les données (et qui les gardent pour elles, ou qui les cèdent par licence) 2/ celles qui détiennent les compétences dans leur utilisation et leur maîtrise (cabinets conseils, fournisseurs de technologies, prestataires de solutions analytiques 3/ celles qui ont uniquement des idées innovantes de création de valeur économique et qui suggèrent la formation idoine et opportune de grandes quantités de données comme précieuse « matière première ». En résumé : maîtrise des BD ; compétence dans leur manipulation ; idées de constitution de BD.

De nouveaux métiers sont logiquement appelés. La grande presse a repéré celui, très prisé, de « data scientist », c’est-à-dire de l’expert scientifique des données qui réunit des compétences transversales de statisticien, de programmeur de logiciels, d’infographiste… et de conteur. Il y a aussi l’« intermédiaire consultant » (je ne sais pas trop comment le nommer) qui fait office de manipulateur de flux d’informations sur longue période en conjuguant différentes banques de données versus le « data broker » qui, lui, est généralement un financier pressé (notons qu’il est susceptible de proposer des services groupés à des entreprises concurrentes qui pourraient, de ce fait, coopérer en amont). Enfin, certains observateurs (Cukier et Mayer Schönberger, notamment) pensent, et je les rejoins, qu’un métier d’ « algorithmiste » pourrait ou devrait être envisagé : à l’intérieur des organisations, dans un rôle de vérification des algorithmes, de leur utilisation à fin de prévention, de vigilance et de protection individuelles et collectives et, à l’extérieur des organisations, dans un rôle d’auditeur, en charge (publique ?) d’éthique, de contrôle, de transparence et d’impulsion de « bonnes pratiques ». Une mise en garde. Que l’existence de ces nouveaux métiers vienne inconsciemment consacrer l’idée qu’on peut laisser baigner l’ensemble de ces activités et systèmes dans une logique globale d’autorégulation serait de la plus haute imprudence (pensons un instant aux milieux financiers qui ont amplement montré combien cette option était périlleuse) !

Enfin, en deçà même de ces métiers qui incarnent cette nouvelle chaîne de valeur économique, il y a le domaine des formations supérieures : au niveau Master, MBA ou formation continue ; dans les (grandes) écoles d’ingénieurs (Telecom-ParisTech, avec un mastère spécialisé, a lancé le mouvement) comme dans les (grandes) écoles de commerce ; dans les entreprises aussi, bien sûr : d’IBM à AXA en France ; en formats courts ou longs….

L’action et les acteurs, économiques avant tout

Quelle est la part de réalité, d’intox ou d’anticipation raisonnée qui est aujourd’hui mobilisée pour enclencher une dynamique d’entraînement économique ? Je ne sais pas bien faire écho à cette question. Mais on rapporte que le changement opéré dans les entreprises du fait de la prise en compte des BD dans leurs décisions aurait déjà des répercussions visibles sur les résultats financiers : hausse de productivité, donc source d’avantage concurrentiel. Parmi les indices utiles pour apprécier cette dynamique, il y a le courtage en BD, industrie qui prospère. Bref, on aura saisi l’essentiel si on comprend d’une part que la valeur économique va se déplacer inexorablement de « la technicité pure à la gestion de cette technicité et à la relation client », d’autre part que ce sont les grands acteurs qui sont à la manœuvre.

Avant tout, c’est le « technomarché » américain, comme je le nomme depuis 20 ans, qui prospère aujourd’hui à l’échelle planétaire autour des fameux GAFA (Google, Amazon, Facebook, Apple), lesquels sont les « grands maîtres » des BD (mais aussi les courtiers en données du type Infos USA) [8]. En 15 ans, Google surtout (mais Amazon aussi) a réussi l’intégration verticale des 3 types de service que je décrivais plus haut. Cette entreprise collecte les données ; elle les expertise, les utilise, les réutilise, les met à disposition de tiers : elle accumule donc des compétences ; enfin, elle donne à tous ses choix stratégiques une « couleur BD » [9]. Si l’on prédit quelquefois pour Google un avenir totipotent de future première compagnie d’assurance ou de première compagnie automobile ou de première compagnie de distribution au monde ou encore d’entreprise majeure dans les cyberguerres, c’est en vertu de la valorisation présumée que lui confère cette matière première qu’est l’accumulation massive de données et la taille de ses bases de données dans sa maîtrise… de « la relation client ». Cette « relation client », cette « information-client » comme on l’appelle quelquefois, est centrale dans cette affaire : ainsi, quand Netflix capte le marché de la video, c’est en proposant un service novateur qui sera guidé en permanence par « l’esprit BD » pour fidéliser le consommateur !

Le « technomarché » à foyer européen a des moyens et des stratégies plus limités. Mais les manœuvres ont commencé. A l’été 2014, en France, Atos a racheté Bull et, en Allemagne, l’éditeur de logiciels professionnels SAP, spécialiste du logiciel pour la comptabilité et la gestion de la « relation client », a accéléré l’intégration de ses offres (solutions cloud, mobiles et externes). Dans chacun des deux cas, c’était pour mieux se positionner sur les BD. De leur côté, la Commission Européenne et « le secteur européen des données », s’engagent, à partir de 2015, à investir 2,5 milliards d’euros dans un partenariat public-privé (PPP) qui visera à renforcer « ce secteur et à placer l’Europe en tête de la course mondiale aux données », « la communauté européenne des mégadonnées », enfin, « aidera à poser les fondations de l’économie prospère de demain, qui reposera sur les données ».

En France en particulier, on tente de résister et de s’organiser de façon à échapper à un destin de « sous-traitants ». Une initiative publique, un plan « Big Data » - issu des travaux de la commission Lauvergeon « Innovation 2030 » - ambitionne la création « d’un écosystème français du BD » où les grands groupes et le monde du service, du type Capgemini, sont appelés à coopérer, dans une logique « d’innovation ouverte », avec les start-up et le monde du logiciel, pour relever ces enjeux. François Bourdoncle, co-pilote de ce « plan BD », n’hésite pas à affirmer : « Le Big Data est une arme de guerre. C’est le levier avec lequel le capitalisme est en train de soulever le monde ». En effet, comment les BD et les techniques et pratiques qui leur seront associées pourraient échapper, dans les décennies qui viennent, au pouvoir des entreprises non financières et financières, des pouvoirs publics, mais aussi des mafias organisées. La grande complexité qui caractérise leur récente émergence obscurcit d’emblée leur compréhension, leur accès et leur orientation, écartant probablement tous autres acteurs que ceux-là. Autrement dit, la possibilité de leur « mise en culture citoyenne » du fait de groupes associés apparaît improbable, d’autant que « les personnes physiques », avec leurs données personnelles, pourraient se voir embarquées dans des logiques de marchandisation individualisées fort peu civiles et civiques. De ce point de vue, on observera avec attention l’activité de « l’administrateur général des données », fonction créée par décret du premier Ministre en date du 16/09/2014 pour coordonner l’action des administrations en matière d’inventaires, de gouvernance, de production, de circulation et d’exploitation des données par les administrations.

Les conséquences sur « le libre arbitre », « le bien commun » et « le vivre-ensemble »

La montée en généralité des questions abordées dans cette contribution en termes de conséquences de l’émergence du « monde des BD » sur « le libre-arbitre », sur « le bien commun » et sur « le vivre-ensemble » n’est aisée qu’en apparence. Nous l’opérons ici, au moins en première analyse, autour de l’hypothèse que les BD consacrent le passage d’un monde où les causes demandent à être connues à un monde où les effets demandent à être vérifiés et contrôlés seulement (pour paraphraser Giorgio Agamben qui pense que ce changement est emblématique de la modernité). Sous forme d’une série de questions à la formulation provisoire auxquelles nous tentons de donner une cohérence.

« Libre arbitre » ? Ici, le réflexe est sans doute de songer aux conséquences de toute nature, y compris anthropologiques, de l’approfondissement d’une dynamique individuelle de « quantified self » étudiée urbi et orbi. Ce réflexe n’est pas dénué de sens. Pour autant, nous considérons que c’est à partir de la question centrale – la corrélation versus la cause – que les raisonnements devraient être ré-envisagés du point de vue des effets majeurs : est-ce avant tout la dynamique d’automatisation des choix (donc d’expulsion de la décision humaine du domaine des choix par voie technologique) qui sera favorisée ou davantage la « sérendipité », l’intuition, le « rebond » en multiples démarches exploratoires et ouvertes,… ? Dans le premier cas, le principe de finalité ne se trouve-t-il pas mis à mal, interroge Antoinette Rouvroy ? Autre chose. Les décisions que nous prenons ont dans l’ensemble une apparence causale. Pourraient-elles être incriminées au plan de la responsabilité individuelle si nos univers mentaux peu à peu « colonisés » par des représentations faites de corrélations devaient les délégitimer ? Davantage encore : contrairement à ce que l’on pense assez souvent, la ré-identification d’un individu et de ses liens au sein d’immenses masses de données anonymisées « orientées » corrélation n’est pas hors de portée technique ; de sorte que tout individu pourrait se voir affublé d’un statut d’« auteur probable », plus précisément « d’auteur d’actes probables », avec, à la clé, un risque de pénalisation établie sur la base d’ intentions qualifiées de probables (on pense, bien entendu, au film-culte « Minority Report ») ! Problème pour les CNIL du monde entier, bien sûr ! Quant aux modes de vie, la « smartification de la vie quotidienne », pour parler comme Evgeny Morozov, permettra-t-elle encore une « réflexivité » de nos actes qui puisse échapper aux effets d’une alliance entre l’algorithme et le technocrate tapie dans les grandes organisations tant privées que publiques ? [10] Enfin, qu’est-ce un « libre-arbitre » lorsqu’il est considéré du point de vue des seuls choix qui auront été préalablement exprimés par des données déjà existantes ?

« Bien commun » ? Les données s’intéressent donc à ce qui est et présentent un monde déjà existant à travers un prisme d’efficacité technique où le référentiel central devient l’optimisation de cet existant. Dans ces conditions, la logique probabiliste que le « monde des BD » charrie marquerait-elle la fin des « temps modernes » et le début d’une nouvelle phase déterministe dans l’histoire des hommes ? Que dire, en outre, d’une possible addiction aux « univers probables » et aux jeux de comparabilité qu’ils induisent exclusivement sinon qu’ils ruineraient la possibilité même d’univers originaux, non encore imaginés et leur incomparabilité nécessaire ? Comment, en effet, le « bien commun » accueillerait-il encore l’original, le non encore conçu, l’informulé, le non pratiqué,… ? Faut-il veiller à promouvoir au service de l’action tout à la fois et la qualification et la « disquantification » ? Par ailleurs, la logique macro de « gestion des risques et des opportunités » - qui, via les BD, s’accroche à tout aujourd’hui ! – va-t-elle transformer celle de « responsabilité individuelle » ? Et la carte l’emportera-t-elle sur le territoire ? Autre grande question, celle de l’espace public. Qu’est-ce qu’un espace public où… la publicité n’a aucun coût ? Serait-il le lieu d’un néo-benthamisme triomphant où les Big Data offriraient au plus grand nombre la meilleure voie dans la poursuite du plus grand bonheur ? (Et, bien entendu, quel rôle des Etats, là-dedans ? [11]). Doit-on prévenir les effets d’un renforcement de la « gouvernementalité par les nombres », par les algorithmes ? Doit-on anticiper un espace public déserté d’une « connaissance publique » jusque-là appuyée sur les organismes chargés de la statistique publique ? Revenons un instant à Morozov : « une réglementation algorithmique » consacrera-t-elle « la prise de pouvoir des données et la mort de la politique » ? En effet, dit-il, « le désaccord et le conflit, selon ce modèle, sont considérés comme des sous-produits malheureux de l’ère analogique – à résoudre par la collecte des données – et non comme les conséquences inévitables de conflits économiques ou idéologiques » [12]. Last, but not least, qu’est-ce qu’un espace public où les sciences, sociales notamment, seraient in fine portées à faire écho avant tout à toutes les formes possibles d’utilisation des données du Web ?

« Vivre-ensemble » ? La question de la protection des données individuelles et collectives contre le vol ou la malveillance constitue une thématique importante et pertinente, médiatiquement très explorée : en effet, aujourd’hui, les données per-sonnelles n’ont toujours ni propriétaires ni règles d’usage, en particulier sur la façon d’envisager « la gestion de la mémoire » ! Elle pose, en outre, de redoutables problèmes de libertés comme l’a montré, au début des années 2000, la forme de la réponse américaine d’un « Patriot Act » pour assurer la sécurité [13] ! Plus générale-ment, si la tendance devait aller à la colonisation progressive de nos choix à base de sens moral par des algorithmes prédictifs, comment échapper alors à la violence des échelles industrielles et des diktats collectifs, quels que soient leur forme (Gosplan capitaliste, société autoritaire de marché,…), qui pourrait en être le corollaire ? [14] Comment préserver un libre « pouvoir d’agir » individuel et collectif face à la menace d’une dictature des données, le cas échéant guidée par une « industrie bibliométrique » fortement concentrée ? Suffirait-il d’adopter des principes de transparence (des données et des algorithmes), de certification (fiabilité et validité des algorithmes) et de réfutabilité (possibilité de réfuter une prévision) ? Bref, quel contrôle, quelle maîtrise à propos de la gouvernance des BD ? Autorégulation par les marchands ? Ou bien régulation publique fondée, par exemple, sur une redéfinition d’ensemble du numérique autour d’un principe général de loyauté, comme semble le recommander le CNN (Conseil National du Numérique) ? Peut-on envisager égale-ment la conception d’une maîtrise citoyenne des BD ? Alex Pentland [15] laisse entendre avec optimisme qu’un « contrat social sur les données » est possible. Mais le développement de bases et banques de données techniquement sous contrôle individuel ou mutuel est-il à l’échelle des enjeux ; l’open innovation ne servira-t-il pas les intérêts des entreprises plutôt qu’une « société civile informée », même par des « données brutes » ? Enfin, en quoi des lois antitrust suffiraient-elles pour protéger contre les « détenteurs de données », et le pouvoir asymétrique dont ils disposent ?

En guise de conclusion (provisoire) à cette introduction.

Instruments, outils, dispositifs, terrains d’enquêtes, métiers, industries en émergen-ce,…Les mégadonnées ou « Big Data », nouveau jalon de la dite « société de l’infor-mation », interrogent donc nos représentations, nos façons de penser et de réfléchir, de croire et de valoriser ; elles les modifient ; elles modifient aussi nos autres instruments et outils. Enfin, elles modifient nos façons d’envisager l’action en général, nos anticipations, nos démarches, nos intentions, nos décisions, nos usages : l’action économique, l’échange et la transmission, et l’action politique, sa rationalité, son organisation. Les BD illustrent l’irruption d’un univers nouveau fait de cartes, de comptes, de sites… qui créeront de l’autorité et de la norme et où nous pourrions avoir tendance à détacher « les traces nativement digitales » de leurs conditions de production, pourtant souvent autoréférentielles ! [16]

La « performativité » marque la capacité de glissement du prédictif au prescriptif. Celle des BD, que nous avons tenté de caractériser sous de nombreux angles de vue, apparaît inédite, inouïe et durable parce que mise au service de logiques puissantes, avant tout économiques, mais aussi militaires. Or, dans moins de 10 ans, le monde pourrait être et la source et le produit d’un univers peuplé de 100 ou 200 milliards d’objets connectés, dont…9 milliards d’hommes ! Le cas échéant, – Big Data aidant – il pourrait n’être plus que la projection de l’extension du domaine des mathématiques en laboratoire, illustrant la prise de pouvoir du in silico sur le dialogue séculaire entre le in vitro et le in vivo.

Jean-Paul Karsenty,
Cetcopra, Paris 1

10 février 2015

Références.

« Big data, entreprises et sciences sociales – Usages et partages des données numériques de masse », Pierre-Michel Menger (Chaire de sociologie du travail créateur 2013-2014), Collège de France, Colloque du 2 juin 2014 (avec 3 sessions : 1/ « Big data », entre usages instrumentaux et usages académiques : un panorama des évolutions ; 2/ « Les « Big data » comme terrain d’enquêtes en sciences sociales » ; 3/ Les « Big data », nouvel outil de recherche en sciences sociales ? »).

« Big Data - La révolution des données est en marche », Victor Mayer-Schönberger et Kenneth Cukier - ouvrage traduit de l’anglais (Etats-Unis) et paru chez Robert Laffont – janvier 2014

« Eléments de débat sur le rôle des Big Data dans la recherche scientifique – Autour de « The end of theory » de Chris Anderson », Anne Alombert, doctorante à Paris 1, article à paraître

« Peut-on créer un écosystème français du Big Data ? », François Bourdoncle, in Le journal de l’Ecole de Paris du Management, n° 108, juillet/août 2014

« Des données sans personne : le fétichisme de la donnée à caractère personnel à l’épreuve de l’idéologie des Big Data », Antoinette Rouvroy, juillet 2014

http://works.bepress.com/antoinette_rouvroy/55

« Pour tout résoudre, cliquez ici - l’aberration du solutionnisme technologique – », Evgeny Morozov, traduction de Marie-Caroline Braud, Editions Fyp, septembre 2014

« Les marches de l’aléa », Michel Armatte, Prisme n°21, février 2012, Centre Cournot pour la Recherche en Economie

La Revue du Digital de « l’info du Business Connecté », plusieurs n°.

Un « Guide des utilisateurs 2014 du Big Data 2014/2015 – L’annuaire de référence à destination des utilisateurs - », réalisé par la société Corp (que m’a signalé Françoise Roure)

http://www.bigdataparis.com/guide/BD14-15_Guide_BD_14136_2.pdf

 

// Article publié le 1er avril 2015 Pour citer cet article : Jean-Paul Karsenty, « Big Data (mégadonnées). Une introduction », Revue du MAUSS permanente, 1er avril 2015 [en ligne].
http://www.journaldumauss.net/./?Big-Data-megadonnees-Une
Notes

[1Le Journal officiel de la République française du 22 août 2014 publie l’avis de la commission générale de terminologie et de néologie : il faudra dire désormais mégadonnées et non Big Data. Pour la commission, les mégadonnées sont des données structurées ou non dont le très grand volume requiert des outils d’analyse adaptés.

[2Logiquement, elles ne s’intéressent pas à ce qui n’est pas enregistré ; a fortiori, elles ne sauraient considérer ce qui n’est pas enregistrable ou, en outre, ce qui n’existe pas. Retenons ceci, car cela a des conséquences souvent négligées dans nos raisonnements et nos démarches d’action. Mais on y reviendra.

[3GPS américain et, sauf nouveaux ennuis, Galileo européen à compter de fin 2015

[4Enregistrer est une opération dont les effets sont de grande portée. Elle accepte « le désordre naturel du monde » et elle renonce de fait à la précision sémantique pour pouvoir bénéficier des effets du processus d’intégration qu’elle autorise entre photos, videos, texte, musique.

[5L’article s’intitule précisément : « The End of Theory : The Data Deluge Makes the Scientific Method Obsolete ». Chris Anderson est physicien et journaliste américain, ancien Rédacteur en chef de Wired, magazi-ne techno-utopiste libertarien.

[6On peut aisément montrer qu’en agissant sur les conditions de la décision en général, elles peuvent, dans certains cas et dans des limites claires de leurs conditions d’utilisation, servir l’intérêt général, civique ou civil. Mais restons-en, pour l’instant, à leur valeur économique illustrée par l’émergence d’un nouveau et gigantesque marché créé par et pour les entreprises.

[7Une valeur d’option pour les données, c’est l’estimation a priori d’une sorte de « vraie valeur » qu’on ne pourrait mesurer dans l’absolu qu’ex post, c’est-à-dire en tenant compte de toutes les utilisations successives effectuées des données ou de leur capacité d’extensibilité à des multiples utilisations potentielles.

[8Un « technomarché » à foyer chinois est-il en train d’émerger autour de Alibaba, de Baïdu ou de Xiaomi ?

[9« Il faut une concurrence équilibrée. Mais tant que Google peut éteindre un concurrent d’un seul coup d’algorithme, c’est que cela ne va pas. Il faudra demander le dégroupage de Google, si la compétition n’est pas ouverte et équitable. ». Denis Olivennes, président du Directoire de Lagardère Active, le 15 mai 2014, Cité Universitaire, Paris.

[10La prise de pouvoir des données et la mort de la politique », Evgeny Morozov publié le 20/07/2014 dans The Observer, traduit par Guy Weets et repris sur son Blog par Paul Jorion le 25 août 2014

[11Bernard Harcourt, Université de Chicago et EHESS, rapporte qu’il n’en coûterait que 20 millions de dollars par an au Gouvernement américain pour « accéder aux données de Microsoft, Yahoo, Google, Facebook, You Tube, Skype, Apple, et d’autres » par l’intermédiaire du fameux programme PRISM de la NSA, lancé en 2007 (Intervention au Colloque du Collège de France, le 2 juin 2014). Au nom d’un principe d’Open data, irait-il le cas échéant, jusqu’à « libérer » toutes les informations en provenance des entreprises qu’il aura acquises pour une bouchée de pain ?

[12Article cité.

[13…La sécurité américaine dont Edward Snowden a révélé en 2013 des dimensions inconnues jusque-là. Parmi les dernières dévoilées, « MoreCowBells » est un programme de l’Agence nationale de sécurité (NSA) présenté comme « de surveillance passive » qui entre en possession d’une masse de métadonnées sur le trafic Internet qu’il peut croiser avec d’autres types de métadonnées collectées par ses programmes de surveillance : qui communique avec qui, quand, combien de fois, etc… (in le Monde, 25 et 26 janvier 2015, page 8)

[14Le Conseil d’Etat a produit (09/09/2014) une volumineuse réflexion (400 pages) sur le sujet de l’encadrement souhaitable des algorithmes prédictifs.

[15Alex Pentland, Professeur des arts et des sciences des medias au MIT (in le Monde, 31 mai 2014)

[16J’emprunte la formule et le raisonnement qui l’accompagne à Dominique Boullier, lequel décrit surtout dans une intervention au Collège de France, le 2 juin 2014, les enjeux pour la 3è génération de sciences sociales qui s’annonce, et les démarches idoines pour les considérer.

Suivre la vie du site RSS 2.0 | Plan du site | Espace privé | SPIP | squelette