// Les moteurs de recherche _____

à jour le
19 juin 2005

Eric Pichon  

 recommander ce site  site web(cours internet)

suite...voir lien en bas de page

 

Principe des moteurs de recherche

Les moteurs de recherche sont des sites qui lancent des requêtes sur une base de données constituée de façon automatique d'après le contenu des pages recensées par les "spiders", outils qui parcourent régulièrement le web en se basant sur les liens hypertextes.

On peut avoir une idée de ce que "voit" un spider sur le site www.spider-simulator. Les données contenues dans les pages rencontrées sont indexées et pondérées automatiquement, selon différents critères qui varient selon les outils :

  • structuration du code "source" de la page (les termes reçoivent une pondération plus ou moins importantes selon les "zones" de la page où ils sont placés.
  • "notoriété" de la page (déterminée par le nombre de liens hypertexte pointant vers celle-ci)
  • fréquentation de la page.

Lorsque l'on interroge un moteur de recherche, c'est dans cette base préconstituée qu'il va puiser pour proposer une liste de réponses, triées en fonction de leur adéquation supposée (c'est à dire calculée) avec la question. Chaque moteur a sa propre méthode de tri - jalousement gardée...

Limites

source : searchenginewatch Les performances des moteurs s'accroissent régulièrement (cf http://www.searchenginewatch.com/reports/ ). Mais le nombre de pages web est en progression constante et aucun moteur ne peut toutes les indexer :

  • Les robots ne peuvent pas parcourir toutes les pages existantes : ils faut qu'au moins un lien les conduisent sur une page donnée (cf la théorie du noeud papillon).
  • délai de mise à jour (entre 2 visites d'un robot à une page web ) : de 1 jour à quelques semaines.
    Ainsi des bases très importantes peuvent contenir des informations périmées
    (demandez par exemple à un moteur de recherche le "compte rendu du dernier conseil des ministres" : il est peu probable qu'il vous propose celui de mercredi dernier).
  • Il existe un web "invisible" qui ne peut pas, du fait de sa structure, être consulté par les moteurs de recherche "classiques")

Quant aux résultats proposés par les moteurs, ils sont souvent très pertinents et génèrent relativement peu de "bruit" ( réponses sans rapport avec la question), mais :

  • il y a beaucoup de "silence", pour les raisons évoquées ci-dessus et parce que la structuration des pages HTML ne permet pas une indexation très poussée des documents (cf le cours sur la gestion de site) ;
  • et seul l'esprit humain (a fortiori celui d'un professionnel de l'information...) est capable de juger de la qualité de l'information trouvée.

Des évolutions devraient permettre d'améliorer les performances des moteurs >>>

 

haut de page

 

Creative Commons License. Attribution : ce site peut être reproduit et distribué à condition que l'auteur initial, eric pichon, soit cité.- Non commercial : aucune adaptation, reproduction ou utilisation de ce site ne peut être faite à des fins commerciales, sans accord de l'offrant ('licensor') - Partage à l'identique : des adaptations de ce site ne peuvent être diffusées que sous une autorisation identique.