La pertinence d’une recherche d’informations est une notion extrêmement complexe. Intimement liée au jugement des utilisateurs, elle est paradoxalement évaluée par les technologies. Mais qu’est-ce que la pertinence ? Peut-on l’évaluer ? Et si oui, comment peut-on l’améliorer ? Pour répondre à ces questions, une présentation des grands principes de fonctionnement d’un moteur de recherche est nécessaire.
D’un point de vue fonctionnel, un moteur de recherche repose sur trois grandes fonctions :
D’une plateforme à l’autre, et d’un fournisseur de solution à l’autre, chaque fonction peut être implémentée de diverses manières en utilisant des approches et des technologies totalement différentes qui impactent forcément la recherche d’informations.
Pour rendre accessible une information par le biais d’une recherche, encore faut-il que le moteur de recherche puisse luimême y accéder. Pour ce faire, trois approches sont possibles.
La première approche consiste à déplacer manuellement les informations vers le serveur où se trouve le moteur de recherche. Une telle approche peut poser des problèmes, notamment lorsque la production quotidienne d’information est importante.
La seconde approche repose sur l’utilisation de logiciels nommés « crawlers » pour détecter les nouvelles informations. Ces logiciels, très utilisés sur Internet, procèdent en suivant récursivement les hyperliens trouvés à partir d’une page pivot. La maîtrise des sources d’informations étant effective, les crawlers sont paramétrés pour chaque source avec une indication des éléments à prendre en compte et de ceux qu’il faut ignorer ainsi que des paramètres de sécurité à respecter. Les crawlers fonctionnent sur un mode de programmation, c’est-à-dire qu’ils scrutent les différentes sources identifiées à des moments bien déterminés. De ce fait, ils ne permettent pas une indexation en temps réel de l’information. Une recherche d’informations pourra aboutir à la version précédente, et peut-être obsolète ou erronée, des documents concernés ! Par ailleurs, du fait de leur sollicitation parfois conséquente de la bande passante, il est important de planifier l’action des crawlers à des moments où le réseau de l’entreprise n’est pas trop sollicité par les collaborateurs ou les autres applications informatiques.
La troisième approche recourt à des connecteurs spécifiques pour détecter et prendre en compte en temps réel les modifications des contenus à la source. Un connecteur est un logiciel qui permet de faire le lien entre l’API du moteur de recherche et l’API d’une source d’information. Parfois des web services sont utilisés. Concrètement, un connecteur est un ensemble de méthodes d’accès optimisées. Le but consiste à prendre en compte toutes les spécificités de la source d’information considérée : structure et format de l’information, paramètres de sécurité… Un connecteur est généralement spécifique à un type de source. Avec un tel dispositif, la plateforme et la source d’information communiquent directement, et ce, de manière riche. C’est-à-dire que la source peut communiquer au moteur de recherche des informations qui vont bien au-delà des contenus à indexer. Ainsi, si la source d’information le permet, un connecteur permet d’indexer l’information en temps réel. Par ailleurs, comme l’ensemble des spécificités de la source d’information est pris en considération, l’indexation peut également s’effectuer sur la structure même de l’information.

Partager |
|
|
Gilles Balmisse, Directeur associé Knowledge Consult
![]() KnowledgeConsult est un cabinet de conseil spécialisé dans la mise en oeuvre de dispositifs de gestion des connaissances, travail collaboratif, gestion des contenus et veille. |



