Web sémantique: quand l'info devient connaissance | Juin 2011


Sur le chemin du Web intelligent

Enjeu prioritaire pour les chercheurs, le Web sémantique intègre les données disséminées sur la Toile et leur donne du sens. Il «comprend» les requêtes des utilisateurs, relie les informations entre elles et propose un résultat de recherche intelligent.


Nous devenons exigeants lorsque nous effectuons une recherche sur le Web et avons peine à admettre que les résultats ne correspondent pas à nos attentes. Il est vrai que les informations foisonnent sur la Toile et une simple recherche par mots clés devient de plus en plus imprécise.

Le Web sémantique apporte une réponse à cet engorgement de données éparses, cette infobésité, et toute recherche devient plus intelligente, intuitive. Pas étonnant dès lors que cette façon de concevoir les liens qui relient les documents entre eux est devenue l’enjeu prioritaire du «World Wide Web Consortium» (W3C) conduit par Tim Berners-Lee, le génial inventeur du Web.

Un Web qui nous comprend

Le Web sémantique fait partie intégrante du développement de l’Internet.

Cette évolution  logique a pris forme depuis le moment où l’on est passé du Web statique au web participatif. Cette nouvelle ère – que certains nomment déjà le Web 3.0 – prendra en compte la recherche en «langage naturel».

Le Web sémantique sert effectivement à créer ce nouvel univers de relations entre mots clés, termes de référence, phrases complètes et sa signification afin d’aboutir à une réponse satisfaisante, même dans un environnement parsemé d'ambiguïtés.

Aujourd’hui, les principales technologies associées aux recherches sémantiques se basent sur l’analyse lexicale et ontologique, l’analyse statistique et l’analyse contextuelle. La mécanique de fonctionnement du moteur dépendra bien sûr de l’algorithme utilisé, mais l’objectif est toujours le même: analyser une requête selon un contexte qui prend en compte l’utilisateur et la signification des mots et non simplement «sortir» des mots clés classés par popularité. Un exemple serait la phrase «Apple is my favorite» dont le sens pourrait balancer entre marque d’ordinateurs et fruit défendu.


Malgré les possibilités techniques d’utiliser une machine pour repérer un document indexé par un moteur de recherche classique, il est néanmoins nécessaire que l’interprétation soit faite par une personne. Le Web sémantique apporte, quant à lui, des solutions qui permettent à un ordinateur de traiter, transformer, rassembler et modifier des données selon les besoins des utilisateurs. Grâce à de nouveaux standards de traitement de l’information, les données sont liées de manière efficace et autorisent l’automatisation, l’intégration et la réutilisation par de nombreuses applications des documents indexés.

La technologie préconisée par le W3C n’est pas fondée uniquement sur l’intelligence artificielle. Le Web sémantique se base sur des ensembles structurés de données ainsi que d’algorithmes pour comprendre les vraies relations entre les différentes sources (y compris les bases de données). Cependant, l’ordinateur n’est pas encore capable de comprendre le contenu véhiculé par l’ensemble de l’information repérée. Malgré tout, il aura suffisamment de pistes pour faire les liens logiques et extraire les bonnes réponses.

L’intégration du Web sémantique dépend strictement de l’addition de métadonnées ou, autrement dit, de données spécifiques qui décrivent le contenu des informations et des savoirs présents sur la Toile. A partir du moment où un nombre suffisant d’informations de nature sémantique est inscrit sur le Net, les ordinateurs sont désormais capables de gérer les informationset ainsi comprendre ce qui est important dans la recherche et comment mettre en relation les informations entre elles. 

Des millions de réponses

Actuellement, en trois clics, nous avons toute l’information au bout des doigts. Les moteurs de recherche sont nos oracles et le simple geste de soumettre une requête est devenu un geste anodin et quasiment inné.

En quelques secondes, des millions de réponses – plus au moins correctes – sont là, devant nos yeux. Pourtant, on se rend compte bien vite que ces résultats ne correspondent pas exactement à ce à quoi nous pensions et que nous n’utiliserons au mieux que les cinq premiers liens proposés sur la page de résultats.

Une information de qualité

Les moteurs de recherche d’un nouveau genre seraient, quant à eux, capables de comprendre la sémantique du langage dans les requêtes effectuées, en obtenant ainsi des résultats beaucoup plus précis. Cette technologie permettrait donc d’effectuer des recherches plus approfondies, où les internautes pourraient poser leurs questions en utilisant un langage qu’ils ont l’habitude d’employer.

L’utilisateur devient plus exigeant et veut des réponses concrètes. Le Web sémantique serait, selon beaucoup de spécialistes, le moyen d’accéder à des informations de qualité. Cette technologie appliquée aux moteurs de recherche créerait un environnement connecté, avec des ordinateurs qui coopèrent entre eux, où «le sens de l’information, de la donnée serait pris en compte pour rendre à l’internaute une information riche, contextualisée et fortement qualifiée» (Marc Hypollite).

Comme l’explique Alain Werner sur son blog, «le Web sémantique n'est pas un Web à part, mais une extension du Web courant, dans lequel on donne à une information un sens bien défini pour permettre aux ordinateurs et aux gens de travailler en coopération». Les informations doivent avoir un sens de façon à ce que les machines et les programmes puissent les comprendre et les gérer, en les adaptant aux désirs des internautes.

Le sprint des entreprises

Les entreprises devront suivre le courant sous peine de se retrouver dernières du peloton. Elles seront donc forcées d'intégrer la sémantique dans leurs systèmes d'information et de repenser toute leur stratégie de référencement, d’organisation, de management.

Comment le Web sémantique va-t-il changer la donne dans le monde commercial? Il faut d’abord savoir que l’enrichissement sémantique passe par la transformation d’un fichier à qui l’on attribue des informations additionnelles. C’est donc une technologie qui peut s’appliquer à différents domaines.

En marketing, on pourra par exemple tenir compte du comportement des internautes et, du coup, le repérage des leaders d’opinion deviendra plus facile. De plus, un ciblage plus efficace mènera à un meilleur référencement et à plus de visibilité.

Les données peuvent être balisées selon la norme RDF (Resource Description Framework) qui utilise des données telles que le nom du magasin, son adresse, les heures d’ouverture. Ainsi les moteurs de recherche peuvent  identifier chacun de ces éléments et les mettre en contexte.

Augmentation du trafic

L’entreprise Best Buy, un distributeur américain de produits électroniques en ligne, a opté depuis deux ans pour le standard RDF en ajoutant ainsi une touche sémantique à ses pages Web. Des balises spécifiques développées pour le e-commerce décrivent le produit, le prix et donne les coordonnées de l'entreprise – données qui sont lues par les moteurs de recherche. Cette simple intégration a permis à l’entreprise d’augmenter sensiblement sa visibilité sur le Web.

Comme l’affirme Pierre Matuchet, directeur général de VSC Technologies, «en complément des sites marchands, on peut aussi imaginer que le Web sémantique sera utilisé pour associer du contenu digital à de la publicité. Le modèle de l’e-business est promis à des bouleversements majeurs assurément liés à la démocratisation du Web sémantique».

Ressources humaines

Depuis une dizaine d’années, le marché de l’emploi change de physionomie et passe désormais du papier à l’Internet.  Cette mutation modifie profondément notre manière de concevoir nos postulations, comme il modifie la manière de recruter. La masse fluctuante de l’offre et de la demande pose un réel problème aux agences de recrutement, en termes de structuration et de gestion des documents. Comment faire le lien entre les compétences d’un candidat et une offre d’emploi? Comment rendre efficaces et performants les systèmes de recrutement?

Le nouveau groupe Adenclassifieds – né de la fusion de Keljob et de Cadre Emploi –utilise ainsi une plateforme développée par Endeca Technologies Inc. qui lui permet d’améliorer sensiblement les fonctions «recherche» de sa «CVthèque».

Le site «lesjeudis.com», spécialisé dans les métiers de l'informatique, a remplacé recherche par catégories et recherche par mots clés par un outil sémantique qui fait la liaison entre les deux philosophies.

Autre exemple de réussite, Piana HR Group, un des leaders français du recrutement, utilise les outils sémantiques de Lingway pour améliorer sa productivité et trouver les meilleurs candidats pour ses clients.

Un outil de veille

Début 2010, la filiale espagnole de Toyota a investi dans un «outil de récolte d’opinions» afin de se forger une idée précise des motifs de satisfaction et d’insatisfaction des consommateurs. Leur objectif: suivre les opinions de leurs clients et anticiper d’éventuelles crises. Grâce à une veille active sur le Web, l’outil peut collecter des commentaires sur les modèles de Toyota. Ainsi, lorsqu’une critique est postée sur le Web, le constructeur est désormais capable de réagir immédiatement et de mettre en place des actions de communication qui ne ternissent pas sa e-réputation.

On comprend, on lie, on classe

Le Web sémantique semble sans doute d’un intérêt encore limité pour les petites organisations qui ne manipulent qu’une quantité très limitée de données privées.

Mais, pour les grandes structures, pour celles qui souhaitent partager leurs savoirs, ou encore pour les moteurs de recherche grand public, le Web sémantique représente à coup sûr un enjeu stratégique majeur: celui de pouvoir lier les données les unes aux autres, et de créer ainsi une nouvelle information, pertinente cette fois-ci.

Références
www.altova.com
www.w3.org
www.hakia.com


Sources Images:

www.w3.org


dossier préparé par:


Eléonore Arnaud, Simon Barbone, Corinne Isaia, Sandra Rodrigues, Pedro Miguel Rodrigues de Almeida