Big Data : la prévision en mode numérique | Janvier 2013


Quand l’instantané prédit le comportement

La quantité d’informations instantanées postées en ligne ne cesse d’augmenter. Les entreprises d’aujourd’hui y trouvent une mine infinie de ressources et ce, dans tous les domaines (marketing, sociétal, scientifique, etc.). La prédiction numérique par des outils spécifiques et ses risques inhérents sont des thèmes d’actualité de la vie moderne.

Henry Martelet, fondateur et directeur de GetGiving, une société facilitatrice de dons. Il a conduit un projet de géomarketing dans le cadre de la distribution de la presse.

Il existe différents traitements de données permettant la construction de modèles prédictifs en utilisant les données en temps réel et en grande quantité. Ces modèles sont-ils récents en marketing ?  

Les marketeurs ont toujours utilisé les bases de données pour élaborer des modèles prédictifs. En particulier ces bases sont très utiles pour faire de la segmentation prospective (techniques de la régression, de l’analyse en arbre, les modèles log-linéaires, les scorings de toutes sortes, etc.). Le marketing direct en est un grand utilisateur. Par exemple pour prédire le taux de réponse à un mailing ou les comportements d’achat à travers un réseau de vente, anticiper les résiliations de contrat, etc.

Cependant ces techniques « anciennes » ne prédisent que du blanc ou du noir, à la rigueur une échelle de gris et surtout qu’un comportement à la fois. Au début des années nonante, l’utilisation de l’intelligence artificielle pour la segmentation a débloqué un peu la situation. 

Puis il y a eu toute une série d’innovations incrémentales qui ont permis d’améliorer considérablement les performances de ces bases de données (bases NoSQL pour désigner des bases de données non relationnelles) et de réduire la mémoire qu’elles nécessitaient pour fonctionner. Nous sommes dans l’ère du commerce algorithmique! 

Quelles sont les technologies associées ?   

Grosso modo, vous entendrez les termes de cloud computing, d’outils analytiques des réseaux sociaux (textuelle, sémantique…), de crowdsourcing, de calcul en mémoire (pour exécuter en parallèle des applications transactionnelles et analytiques), la notion de décisionnel "actionnable", la pratique du distributed processing, etc.

Mais aujourd’hui ce qui modifie le plus en profondeur les modèles prédictifs ce sont les données qui les nourrissent : données issues des réseaux sociaux, des messageries, des posts, des parcours de navigation, de l’UGC (User Generated Content) les données comportementales, géographiques, publiques, privées, environnementales (nous sommes entourés de capteurs, GPS, etc.). Par ailleurs le mouvement de l’open data encourage leur publication et leur accès libre. C’est ce changement de la qualité des données ajouté à leur instantanéité qui est l’élément le plus notable.

Dans cette évolution technologique, le Gartner a identifié les Big Data comme la technologie dite «  point de bascule ». D’elles dépendent le reste du puzzle. A noter que les technologies Big Data remettent en cause le concept de datawarehouse unique d'entreprise. Le problème n’est plus de récolter, ni de stocker, mais de fédérer ces données issues de multiples systèmes hétérogènes en un entrepôt de données structurées.

Quelles en sont les limites associées ?

Une partie des risques de traitement de ces Big Data sont les mêmes que pour les analyses statistiques traditionnelles. En théorie vous avez beaucoup de données mais en pratique, si votre objet d’analyse est très précis, vous n’avez pas forcément une grande quantité de données fiables à votre disposition. Avec un nombre de données insuffisantes vous vous exposez par exemple à l'overfitting qui intervient lorsqu’un modèle contient trop de paramètres et est alimenté par trop peu d’informations. Vous surpondérez alors des tendances mineures, donnez trop d’importance au « bruit ». Un biais bien connu dans les sondages ou études de marché. Et comme nous avons tendance à faire des extrapolations fortes sur les données faibles…

S’agissant plus particulièrement des social data, elles souffrent de manque de justesse et de pertinence. En effet, collectées dans l’instantanéité, elles induisent un angle mort car marquées par les représentations de soi propres aux réseaux sociaux. Elles doivent être croisées avec des données plus traditionnelles. D’ailleurs des chercheurs développent des méthodes d’observation propres au web et non pas simplement décalquées des sciences humaines classiques. 

De manière plus générale, il faut bien se rendre compte que les modèles prédictifs ont certes plus de données, disposent de plus de technologies mais les environnements des entreprises et des nations qu’ils doivent prévoir deviennent, eux, plus complexes. Ces environnements présentent des niveaux élevés d’incertitude (absence objective d’information) ; ils ne se comportent plus de manière linéaire même s’ils peuvent être linéaires sur une certaine période (par exemple le marché immobilier aux Etats-Unis jusqu’en 2008). Ils peuvent également être très sensibles aux petites variations (cf. l’effet papillon) ou aux événements à faible probabilité mais à fort impact (les « cygnes noirs » ainsi nommés par Nassim Taleb qui a montré par exemple que 99% de la variation totale d’un portefeuille de produits dérivés sur une période de vingt ans se sont produits en un seul jour).

Enfin des voix montent de plus en plus pour souligner la relative inefficacité de l’extrême ciblage prédictif associé aux Big Data. On entend parler du thème du passage d’une économie de l’attention à une économie de l’intention (titre du dernier ouvrage de Doc Searls) avec des concepts dérivés comme le Vendor Relationship Management (VRM) dans lequel l’utilisateur affiche ses intentions au lieu d’essayer coûte que coûte de lui extorquer (économie du pull, empowerment de l’utilisateur). Cette approche vise simplement à aider les individus (plutôt que les organisations) à décider, choisir et agir. Dans cette économie l’information collectée doit être simple, directe et non ambiguë. La relation client devient data collaborative. La startup Le Bon Côté des Choses (www.leboncotedeschoses.fr), assistant shopping du quotidien, est révélatrice de cette tendance qui prend un peu le contrepied des modèles prédictifs Big Data.

Les résultats d’analyse des Big Data peuvent avoir des conséquences sur certains aspects touchant à la vie privée comme dans le cas de prêts bancaires et dans les caisses d’assurance maladie. Une dérive par rapport à l’exploitation des données de la vie privée n’est-elle pas à craindre ?

Depuis Watzlawick on sait qu’on ne peut pas ne pas communiquer. Aujourd’hui on sait aussi qu’il n’existe aucun moyen de cesser d’être suivi en ligne. Si elles ne sont pas collectées pour des ciblages publicitaires, vos données personnelles sont collectées pour des raisons opérationnelles.  Mais cet aspect marketing n’est pas le plus inquiétant car il peut se réguler de lui-même.

Si on exclut la cybercriminalité, la plus grande menace ne repose pas tant sur ces intrusions dans la vie privée que sur l’inexactitude des données extraites sur vous. Une étude édifiante a procédé à plusieurs expérimentations comme retrouver des informations privées (date de naissance, numéro de sécurité sociale) à partir d’une photographie postée sur un réseau social. Les résultats comportent des taux d’erreur significatifs. Même si la technologie de reconnaissance faciale s’améliore, les experts estiment qu’il restera toujours un taux d’erreur non négligeable. Un chercheur a dit que « l’internet pourrait devenir non plus l’endroit où nul ne sait que vous êtes un chien, mais un endroit où tout-le-monde connaît votre nom ». C’est un vrai problème de société. 

Source :

Naone, Erica, [en ligne], 2011, http://www.technologyreview.com/news/424965/when-social-media-mining-gets-it-wrong/?mod=chthumb, [consulté le 17 janvier 2013]

Les business models et les technologies sont très mouvants et demandent des adaptations constantes ; en effet la technologie anticipe les usages. Peut-on dire que les personnes qui sauront utiliser ces outils prédictifs sont les personnes qui détiendront le pouvoir de demain ? 

Les social media ont modifié les chaînes de production et de diffusion de biens et de services et peuvent effectivement impacter les business models. Ils contribuent à accroître la viralité et le pouvoir de prescription, deux caractéristiques qui contribuent à baisser le coût d’acquisition, indicateur toujours très analysé par les investisseurs (le SEM coûte toujours très cher). 

D’ailleurs la distinction classique entre investissement en capital risque et en capital développement semble être, est dépassée lorsqu’une start-up atteint rapidement un niveau de diffusion qui aurait nécessité 3 ou 4 fois plus de temps dans un passé récent.

En outre les réseaux sociaux commencent à modifier le tunnel de vente dans un contexte où les consommateurs sont, en permanence, plus ou moins inconsciemment dans un processus d’achat. Dans ces étapes qui se déroulent sans aucune intervention de la marque, les entreprises peuvent s’appuyer sur des modèles prédictifs pour anticiper et faire appel à des stratégies de « refidélisation » des clients aux moments critiques du cycle de consommation.

Pour une société d’e-commerce (pure player ou autre) ou brick and mortar il est donc essentiel d’inclure les réseaux sociaux de manière systématique comme un moyen d’accroître sa base, de se rapprocher d’activités très différentes (médias participatifs, réseaux numériques, plateforme de partage social gaming, etc.). Et c’est justement dans cet impératif de « viraliser » que les modèles prédictifs et le recueil de données peuvent l’aider. Dans la plupart des cas cela se résumera à montrer aux investisseurs comment le concept va tirer parti de Facebook.

Mais il faut garder raison et avoir à l’esprit qu’aucun business model de social media n’a vraiment émergé sur le long terme malgré tout ce qu’on peut lire sur les niveaux d’engagement, les métriques de toutes sortes. 

Pierre-Alain Schnegg, CEO de SolvAxis SA, société qui fournit des logiciels de gestion pour les PME suisses.

L’analyse des Big Data que l’on définit comme des données en temps réel et en grande quantité, permettent de construire des modèles prédictifs du comportement.

Est-ce un phénomène de mode ou un marché en pleine expansion ? Ces méthodes peuvent-elles être appliquées à tous les champs et domaines ?

Il s’agit d’une mutation importante dans la gestion des données et qui n’est pas un effet de mode. Les possibilités de capter l’information se développant très rapidement, il est normal que l’on cherche à exploiter ce vivier.

Les champs d’application sont extrêmement vastes et sont appelés à se développer dans cette décennie. Des développements intéressants vont permettre également d’apporter des fonctionnalités très intéressantes pour les entreprises (gestion de production, qualité, etc.).

Dans une économie de plus en plus concurrentielle, les entreprises sont sans cesse à la recherche de nouvelles stratégies pour anticiper le comportement des internautes.

Quels sont les objectifs – déclarés ou non-déclarés – des Big Data ?

Il s’agit certainement d’outils permettant de mieux comprendre le comportement d’un internaute et par là de pouvoir prédire son comportement futur dans l’objectif de pouvoir capter son attention pour augmenter son chiffre d’affaires. C’est certainement la première intention des entreprises actuellement. Mais comme déjà indiqué, ces technologies vont permettre des développements très intéressants dans d’autres secteurs.

Toutefois à d’autres échelles, une utilisation à des fins politiques, etc. peut s’avérer extrêmement intéressante mais très dangereuse.

Que peut-on concrètement anticiper avec ces données ?

Les intérêts d’un consommateur, son mode de fonctionnement, sa façon de prendre des décisions.

Cela peut également être utilisé dans tous ce qui relève de la régulation de flux (trafic, électricité, etc.)

Amazon p. ex. vous recommande des livres similaires à ce que vous avez déjà acheté, et bien souvent vous allez cliquer sur ce qui vous est proposé sans trop réfléchir, alors qu’une recherche personnelle vous aurait peut-être permis de tomber sur d’autres livres…

Est-ce que nous risquons de tomber dans un carcan où nous aurions l’impression que l’on nous met des œillères nous empêchant de voir ce qui existe ailleurs ?

Comme toute nouvelle technologie, elle apporte des aspects très positifs en effectuant des propositions qui vous auraient peut-être coûté beaucoup de temps. Mais cela peut bien évidemment être très négatif et permet une manipulation des individus.

Toutefois pour l’exemple cité, l’individu reste maître de son choix. Y-a-t-il vraiment une différence avec la publicité traditionnelle, si ce n’est son ciblage et sa rapidité de réaction ?

Le rapport entre instantanéité et prédictibilité est au centre de la dynamique actuelle du web par la multiplicité des traces laissées par les internautes sur le web social, les capacités de traitement de plus en plus efficaces des Big Data, et par la convoitise pour ces analyses de la part des acteurs majeurs du web (commerce électronique, moteurs de recherche).

Quels sont les éléments nécessaires à une analyse prédictive ?

Les éléments vont dépendre du type de site et d’analyse que l’on désirera effectuer. Il s’agit de comprendre comment la personne accède à l’information, comment elle la recherche, le temps nécessaire pour en prendre connaissance, la répétitivité des visites, l’endroit depuis lequel elle accède à l’information, etc.

L'enjeu pour le web de demain est de pouvoir exploiter les données instantanées afin d’établir des modèles prédictifs qui permettront de cibler en temps réel les attentes des internautes.  

Ne va-t-on pas vers une dérive des prévisions ? Peut-on comparer l’analyse prédictive des Big Data à l’astrologie, par exemple ?

Non cela ne peut pas, à mon avis, être comparé à l’astrologie car ces analyses se basent sur des données réelles et exactes. Ce qui restera complexe c’est l’élaboration du modèle de prévision (comme pour la météo).

 


dossier préparé par:


Nadia Atienza, Galya Nizamaldin, Nabil Sahraoui, Lijuan Wu