Big Data : la prévision en mode numérique | Janvier 2013


De la force prédictive des données

Du cours du Dow Jones annoncé plusieurs jours à l’avance au suivi instantané des épidémies de grippe, l’usage de données numériques envahit notre quotidien. Les tendances de la planète web peuvent être induites à travers l’analyse prédictive : combinaison entre collecte d’informations en temps réel et modélisation statistique.

« Tout ce que nous faisons génère des données » selon le Dr. Rappa, Directeur de l’Institute for Advanced Analytics de N. C. State. D’après IBM, 2.5 quintillions d’octets (soit 2.5x108) sont produites chaque jour sous diverses formes, d’où un très fort volume à traiter. Ainsi le fait de savoir analyser les données numériques permet d’avoir un aperçu des tendances et des besoins parmi les internautes, source d’information et de pouvoir considérable.

Mais jusqu’où ce marché gigantesque étendra-t-il ses frontières ?

Big Data ou la nouvelle Madame Irma

Avec la démocratisation de l’usage des smartphones et autres tablettes, notre société hyper-connectée se conjugue en temps réel. Un flux massif de données numériques instantanées est continuellement publié sur le web. Poster des statuts personnels sur Facebook, publier des photos de vacances sur Flickr, tweeter depuis une conférence ou encore faire des achats en ligne sont autant d’activités stockées et archivées sur des serveurs.

La provenance de ces données est plurielle. Elles peuvent prendre la forme de données :

- sociales, telles que réseaux sociaux, blogs, messages, commentaires

- comportementales (recommandations de produits) ;

- géographiques, comme la géolocalisation ;

- ouvertes, telles que les open data ;

- privées ; et

- environnementales (prévisions météorologiques).

Les Big Data submergent littéralement la toile.

Or le principe de stocker des données n’est pas récent. La nouveauté réside plutôt dans l’expansion de ce marché à des entreprises et organismes avides d’en exploiter leur force prédictive. L’analyse des Big Data s’assimile à une nouvelle forme de prédiction en mode numérique. Ces effets sont possibles par la combinaison entre des développements technologiques poussés, une force de calcul algorithmique ainsi qu’une analyse sémantique toujours plus puissante.

La puissance de la masse des données numériques exploitables permet désormais d’élaborer des prédictions extrêmement fiables. De plus, les Chief Data Officers en charge de traiter les données investissent de manière substantielle dans ce type d’algorithmes de recherche.

Données de nature instantanée

L’instantanéité des données contenues dans les Big Data s’interprète sous deux dimensions :

D’une part, les données de nature instantanée, regroupées sous la dimension comportementale : statuts Facebook, tweets ou autres requêtes saisies sur Google. D’autre part, la dimension temps réel : géolocalisation et recommandations automatiques. Ces dernières permettent à l’internaute de se voir proposer des produits prenant en compte ses préférences et ses habitudes de consommation.

Par analyse sémantique, ces deux dimensions permettent de faire de la prospective en élaborant des scénarios possibles sur la base de données disponibles.

Les enjeux sont par conséquent d’ordre aussi bien commercial qu’économique, financier, sanitaire, etc. Il s’agit d’anticiper les tendances dans un contexte en perpétuel mouvement.

L’entrée et la sortie

Des méthodologies très simples se cachent derrière les modèles prédictifs. Selon Erick Alphonse, maître de conférences au Laboratoire d’Informatique de l’Université Paris-Nord et responsable d’Idaaas, il s’agit de « définir un système qui fait une association entre une entrée et une sortie : l’entrée étant la description d’un environnement, d’un objet d’intérêt et la sortie étant la propriété que l’on veut prédire ou déterminer. » Prenant l’exemple du crédit bancaire, en entrée il cite la description et l’historique du client tandis qu’en sortie, il s’agira d’évaluer si le prêt va être remboursé. Après identification de l’entrée et de la sortie, il suffit d’avoir une base de données correspondante.

Pour illustrer l’usage de ces modèles, Guillaume Main, consultant et statisticien du site Statosphère, reporte le cas de Google Flu Trends : « C’est un outil réalisé par Google qui va prendre en compte toutes les recherches effectuées sur le moteur de recherche et mesurer le nombre de fois que le mot grippe, gastro-entérite ou varicelle a été recherché. En fonction de ce nombre, le moteur va mesurer sur le plus grand nombre d’années possible et dans le plus grand nombre de pays. »

La particularité de cet outil est de parvenir à anticiper de deux semaines ce que les organismes médicaux, comme Sentinelles en France – groupement de médecins généralistes – parviennent également à annoncer à terme. D’où le constat que la tendance est à rechercher des informations sur la grippe ou sur une autre maladie lorsque le grand public pense en avoir les symptômes.

Il existe néanmoins une grande difficulté à traiter les Big Data. La masse de données numériques provenant d’horizons et de sources divers n’ayant de cesse de croître en flux continu, il est très difficile à l’heure actuelle de les traiter efficacement. Il existe cependant plusieurs méthodes qui permettent de décanter ces informations et de les trier de manière productive.

La boîte à outils

Afin d’en extraire du sens et d’établir des modèles prédictifs, trois grandes catégories d’outils d’analyse et de traitement des Big Data peuvent être citées.

- Data/web mining : Le data mining (exploration de données) consiste en l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.

Appliquées spécifiquement au web (web mining), ce sont des techniques d'exploration de données, littéralement de « fouille du web ». Elles permettent d’extraire de la connaissance à partir de données existantes sur internet.

Amazon.com, l’entreprise de commerce électronique, utilise largement cette gamme d’outils. D’une part, elle se fonde sur le comportement individuel passé de l’utilisateur (historique de navigation et d’achat). D’autre part, les caractéristiques de l’article (recommandation objet) et les comportements d’autres personnes (recommandation sociale) sont également pris en compte. Grâce au couplement de ces données, Amazon.com est à même de déterminer les produits correspondant de manière ciblée aux préférences de l’utilisateur. En 2009, leur système de recommandation a représenté plus de 30% du chiffre d’affaires global de la société.

- social (media) analytics : ces techniques permettent d’analyser le contenu de divers média tels que blogs, wikis, sites de partage de photos/vidéos, réseaux sociaux et autres forums. Un sentiment général et des tendances autour d’un sujet sont ainsi identifiés.

Les avis exprimés constituent le terreau brut pour prédire les comportements. C’est donc au travers de ces sites que les opinions et les préférences sont principalement distillées de nos jours.

Twitter, à titre d’illustration, a pu prédire le succès d’un film au box-office simplement en analysant les tweets qui lui étaient consacrés.

Dis-moi ce que tu aimes

D’autres outils se démarquent désormais dans la prédiction du comportement humain et, comme corollaire, du comportement d’achat. Ils peuvent être regroupés sous le terme de :

- techniques de profilage : elles sont notamment utilisées en marketing et e-commerce. L'enjeu pour le e-commerce est d’exploiter les données numériques à disposition de manière à mieux cibler les consommateurs et leur recommander des produits.

Le principe en est le suivant : la présence d’une caractéristique chez un internaute permet d’inférer, de la seule présence de cette caractéristique, d’autres caractéristiques. Et celles-ci peuvent être prédictives de ses comportements, attentes ou préférences.

L’interest graph fait partie d’une nouvelle génération d’outils fournissant des indices sur les possibilités de regrouper des personnes. Ces regroupements de personnes sont faits sur des intérêts communs et non pas sur leur cercle social ou réseaux.

Des sites comme Springpad, Pinterest et Get Glue regroupent en premier lieu vos intérêts, puis vous permettent d’établir des connections. Enfin les intérêts partagés donnent des pistes quant aux comportements d’achat.

L’interest graph est une évolution logique du social graph, qui combine des données sociales (qui je suis, qui sont mes amis) avec des données commerciales (ce que j’achète). Les marques sont ainsi à même de proposer des produits sur mesure et reflétant les préférences des internautes ; c’est le cas par exemple sur Facebook.

Twitter fournit également un environnement idéal d’élaboration de campagnes ciblées : il se base sur ce que les gens follow (suivent) et à propos de quoi ils tweetent. La compagnie aérienne Virgin America a utilisé la fonction Twitter’s Promoted Tweets pour s’étendre au Canada. Grâce à la publication très ciblée de leur action commerciale – basée sur l’intérêt déclaré des utilisateurs envers la compagnie – une offre permettant aux 500 premiers voyageurs d’acheter un billet avec un rabais de 50% a été écoulée en trois heures. Cela a signifié pour Virgin leur cinquième meilleur jour de ventes en ligne.

La machine n’a pas de cœur

Quant aux limites à l’utilisation des Big Data, elles sont principalement de deux ordres : d’une part du point de vue des outils et des données et d’autre part du point de vue de l’utilisateur.

Du premier point de vue, il existe des limites technologiques au traitement des données. Bien que les informations en masse puissent être analysées, ce décryptage n’est pas aussi subtil et fin que celui de l’œil humain.

Un modèle mathématique pourra démontrer une corrélation entre certaines données, mais néanmoins en tirer une conclusion statistique incorrecte ou discriminatoire.

Ce biais peut être évité si un être humain collabore à l’élaboration des liens entre les analyses. Il faut qu’il soit capable de prendre en compte plusieurs facteurs ne figurant pas nécessairement dans les résultats de ces analyses, tels que facteurs émotionnels, agissements du subconscient et de la mémoire, etc.

L’utilisation de données de la vie privée induit d’autre part la question de la légitimité de travailler avec des données sensibles sans autorisation préalable.

La qualité et la crédibilité des informations récoltées sur le web représentent un autre obstacle dans l’interprétation des Big Data. Les internautes ne montrent pas nécessairement la réalité, notamment sur les réseaux sociaux. Si la musique punk est un phénomène de mode dans son établissement scolaire, un adolescent pourra indiquer sur son profil Facebook qu’il s’y intéresse. En réalité, cette catégorie de musique ne l’interpelle pas. Des prédictions basées sur ces données peuvent être biaisées.

La structuration de l’information des Big Data  constitue une autre limite du point de vue de l’utilisateur, en restreignant l’effet de sérendipité. Cet effet se définit par le fait de faire une découverte par accident et sagacité alors que la recherche est focalisée sur un autre élément.

Le fait de rester enfermé dans un modèle de recommandation comme sur Amazon.com peut faire passer à côté d’autres ouvrages. Ainsi, sans ces modèles prédictifs, le client aurait pu trouver d’autres ouvrages par hasard, sans se cantonner aux seules propositions de leur plateforme.

Les internautes s’exposent à être cloisonnés dans leurs propres modèles de préjugés et d'uniformité, au risque de voir cette sérendipité disparaître.

Big Data is watching you

Le traitement des Big Data va-t-il résulter en un déplacement des formes de pouvoir ? Antoinette Rouvroy, chercheuse au Fonds national de la Recherche scientifique à Namur (Belgique), s’interroge effectivement sur « le rapport qui existe entre ce nouveau mode de production de savoir prédictif que permettent le profilage et le data mining ». Le résultat de cette perspective est de savoir si ces outils «  amèneront à une nouvelle manière de gouverner, c’est-à-dire d’exercer un certain pouvoir et d’organiser la prévisibilité des comportements humains ».

D’un point de vue plus commercial, de nouvelles perspectives s’offrent également aux marques qui ne ciblent plus un consommateur unique. A l’inverse, la communication se fait avec une audience de personnes ayant des intérêts similaires, une communauté, qui lance les tendances et se fait l’écho de l’opinion publique.

 

Pour en prolonger la réflexion - nos sources

« Big Data », [en ligne], 2012, http://fr.wikipedia.org/wiki/Big_Data, [consulté le 13 décembre 2012]

« Exploration de données », [en ligne], 2011, http://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es, [consulté le 28 décembre 2012]

Guillaud, Hubert, « Du rôle prédictif des données à la gouvernementalité algorithmique », [en ligne], 2010, http://www.internetactu.net/2010/12/16/du-role-predictif-des-donnees-a-la-gouvernementalite-algorithmique/, [consulté le 13 décembre 2012]

Hossain, Nadim « Why The Interest Graph Is A Marketer’s Best Friend”, [en ligne], 2012,  http://mashable.com/2012/06/19/interest-graph-marketer/, [consulté le 29 novembre 2012]

Mathieu, « Les algorithmes de recommandation », [en ligne], 2012, http://www.podcastscience.fm/dossiers/2012/04/25/les-algorithmes-de-recommandation/, [consulté le 28 décembre 2012]

Paillon, Marjorie, « Big data = big marché», [en ligne], 2012, http://www.france24.com/fr/20121022-tech-24-analyse-predictive-big-data-donnees-ibm-oracle-sap-google-vie-privee-meteo-iphone-ipad-pollution, [consulté le 13 et le 27 décembre 2012]

Stolwijk, Xander, « Research Twitter, Predict the Future», [en ligne], 2010, http://mastersofmedia.hum.uva.nl/2010/10/11/research-twitter-predict-the-future/, [consulté le 30 décembre 2012]

Vint Research Report , « Big Social : Predicting Behaviour With Big Data », [en ligne], 2012, http://blog.vint.sogeti.com/wp-content/uploads/2012/10/Big-Social-Predicting-Behavior-with-Big-Data.pdf, [consulté le 2 et le 27 décembre 2012]

Sources images

Dinis, Guarda, « Big Data : Risks, Opportunities », [en ligne], 2012, http://www.intelligenthq.com/wp-content/uploads/2012/07/big-data-risks-opportunities-Timizzer.jpg, [consulté le 5 janvier 2013]

Scoble, Robert, « My Interest Graph », [en ligne], 2010,  http://www.flickr.com/photos/scobleizer/5168375919/sizes/m/in/photostream/, [consulté le 8 janvier 2013]


dossier préparé par:


Nadia Atienza, Galya Nizamaldin, Nabil Sahraoui, Lijuan Wu