Engrenage Google

Google : comment ça marche ?

Explorer le web, dresser un inventaire de toutes les pages existantes et trouver celles qui correspondent le mieux aux mots-clés utilisés dans les recherches... telle est la tâche gigantesque des moteurs de recherche.

A lire en complément de cet article : Le SiteRank, le TrustRank et la sémantique

Dans cette page : Comment classe les pages - La GoogleDance - La force de Google

En bref ...

Comment diable font-ils ? Comment les moteurs de recherche parviennent-ils à répondre à nos requêtes avec tant de rapidité et de précision ?

fonctionnement de Google

Le premier rouage de ces formidables mécaniques est le robot, appelé aussi "bot" ou "spider". Il s'agit d'un programme qui parcourt sans arrêt le web pour alimenter et mettre à jour une base de données qui contiendra :

Les datacenters

datacenter google

Historiquement, les premiers moteurs de recherche fonctionnaient sur des "super-calculateurs" de type "Cray".
Ces machines surpuissantes concentraient la quasi-totalité des traitements. Google a fait le pari d'effectuer ses traitements sur des PC tout à fait ordinaires en multipliant leur nombre pour obtenir l'énorme puissance nécessaire à ses opérations (on parle, dans ce cas, de traitement parallèle massif). Ce pari a parfaitement réussi et les DataCenters Google sont constitués par des immeubles entièrement remplis de PC connectés en réseau qui se partagent le traitement des données (image ci-dessus).

Source image : SEOMoz.org

- l'adresse de chaque page trouvée
- le contenu de cette page (titre, texte, balises meta, noms des images, textes des images, etc.)
- la liste des liens allant de cette page vers d'autres pages

Un moteur tel que Google est alimenté par plusieurs milliers de robots qui fonctionnent en permanence sur plusieurs milliers d'ordinateurs à travers le monde. Ces robots parcourent les pages un peu comme vous pourriez le faire vous-même. A chaque fois qu'une page contient un lien vers une autre page, le robot, une fois sa lecture terminée, saute à la page liée et continue son travail. A l'heure où nous écrivions cet article, Google avait "découvert" et mis en mémoire plus de 8 milliards de pages.

Le deuxième rouage de cette mécanique est représenté par les index. Les ordinateurs de Google traitent en effet en permanence le contenu des pages trouvées pour générer des index (un peu comme dans une bibliothèque) qui vont lui permettre de trouver de façon quasi-instantanée le résultat d'une requête parmi ces 8 milliards de pages. Une façon d'indexer les pages consiste, par exemple, à dresser - à l'avance - une liste de toutes les pages qui contiennent le mot "voiture" de façon à pouvoir répondre immédiatement aux recherches sur ce mot.

Le troisième et dernier rouage est constitué par le site web que vous interrogez lorsque vous vous connectez à www.google.com ou www.google.fr, par exemple. Il existe plus d'une centaine de sites (également appelés "DataCenter") à travers le monde qui contiennent chacun une copie des index des 8 milliards de pages et qui sont tous capables de répondre aux requêtes des internautes. Cette distribution permet à chaque centre de rester performant malgré le nombre faramineux d'utilisateurs du système.

A lire également : le fonctionnement de Google sur le site "GoogleRaide"

 

En détail ...

Comment Google classe-t-il les pages ?

pertinenceGoogle prend en compte l'ensemble des mots contenus dans chaque page à l'exception des mots contenus dans certaines balises. Certains webmasters ont en effet pris l'habitude de bourrer les balises de mots clés censés leur rapporter des visiteurs, quitte à tricher par rapport aux contenus réels de leurs pages. Google s'attachent donc essentiellement aux contenus "réels" des pages (le texte figurant entre <BODY> et </BODY>). Il prend également en compte le contexte et la position de chaque mot dans la page : plus le mot recherché est placé haut dans la page, plus la page sera considérée comme "pertinente" pour ce mot. Les mots en gras ou en italique, les mots écrit dans un corps de grande taille, peuvent également bénéficier d'une "pondération" plus importante que les autres. Tout ceci lui permet de calculer la pertinence des pages par rapport aux mots utilisés dans les recherches.

pagerankGoogle compte le nombre de liens qui pointent vers chaque page. Plus une page est pointée par d'autres pages et plus elle est considérée comme populaire. Ce paramètre de popularité fait l'objet d'un calcul savant appelé pagerank.

bombingGoogle regarde le texte des liens qui pointent vers chaque page. Ce texte va être pris en compte dans le calcul de la pertinence des pages pointées. Ce paramètre a donné naissance au phénomène du Google Bombing.

thématiqueGoogle compare le thème général des pages qui comportent les liens avec le thème général des pages pointées. Si les thèmes sont voisins, les pages impliquées dans ces échanges de liens vont en quelque sorte "partager" leurs pertinences pour tous les mots qu'elles contiennent.

trustrankGoogle a déposé le nom d'un autre système de classement appelé "TrustRank". Pour calculer cet indice, Google aurait établi une liste de sites "honnêtes" et une liste de sites "malhonnêtes". En partant du principe que les sites "honnêtes" ne font généralement des liens que vers d'autres sites "honnêtes", Google attribue une note à chaque site selon la nature des liens qui pointent vers lui et la quantité de sites "honnêtes" ou "malhonnêtes" qui sont à l'origine de ces liens. Pour en savoir plus sur ce sujet et sur le "SiteRank", lire notre article intitulé "SiteRank, TrustRank et sémantique"

GoogleBarLa GoogleBar (qui est aujourd'hui installée sur des millions de postes à travers le monde) se comporte comme un espion et renseigne Google sur les sites visités par les internautes, le temps passé sur chaque site, et, d'une façon générale, sur la façon dont les visiteurs naviguent à travers le web. Il ne fait aucun doute que ces très précieux renseignements sont utilisés dans le classement des sites.

Tous ces paramètres (et sans doute beaucoup d'autres dont nous ignorons l'existence) sont pris en compte par Google pour classer les résultats de recherche et décider quel site aura la fameuse première place, si convoitée, dans ces résultats.

 

La GoogleDance

Les divers datacenters de Google se concertent régulièrement pour mettre en commun toutes les découvertes qu'ils ont pu faire sur le web et recalculer les classements de tous les sites en fonction de ces nouveaux résultats. On appelle cette opération la "Google Dance". Pendant la durée de la Google Dance, les différents datacenters peuvent délivrer des résultats différents. Avant décembre 2005, cette "Dance" n'avait lieu que tous les 2 à 3 mois. Depuis cette date, elle semble quasi permanente.

 

Pourquoi Google est-il le meilleur ?

Chaque année qui passe voit les parts de marché de Google augmenter au détriment de celles de ses concurrents. Même le géant Microsoft n'est pas parvenu, avec MSN, à concurrencer sérieusement ce champion incontesté.

En 2005, près de 80% des internautes avaient choisi Google pour effectuer leurs recherches.

Ce succès repose entièrement sur la façon particulière dont Google traite les données trouvées sur le web. L'objectif est de présenter à l'internaute une liste de résultats qui correspondent le plus justement possible à ce qu'il recherche. A ses débuts, Google a su, mieux que personne, exploiter avec talent le principe du pagerank pour classer les résultats. Depuis, ses chercheurs améliorent sans cesse ce classement pour affiner les résultats et lutter contre le "spam" qui vise à fausser ou à influencer les résultats présentés.

De fait Google se trouve aujourd'hui en situation de quasi-monopole, ce qui n'a rien pour nous réjouir. Ce moteur est désormais si sophistiqué qu'on voit hélas mal qui pourrait le déloger de cette position.

Pour en savoir plus, lisez la "philosophie de Google" sur le site officiel de ce moteur
Le site 7-dragons propose quelques pages sur le fonctionnement des moteurs


L'annuaire du webmaster Le design des sites Web


L'encyclopédie du Monde Apprendre les CSS en douceur


Vous pouvez recopier gratuitement le contenu de cette page sur votre site en respectant quelques conditions de bon sens.
Consultez notre page "Reprendre nos articles sur votre site".


Valid HTML 4.01 Transitional   Vérifier l'orthographe avec RankSpirit et "Le Patron"   Indice YooVi


Wikibis : le savoir à portée de clic.