Le « SiteRank », le « TrustRank » et la sémantique

L’existence du « SiteRank » est une hypothèse. Cette hypothèse suppose que Google analyse l’ensemble de chaque site et tient compte de cette analyse globale pour classer chacune des pages qui le composent. Elle est souvent associée aux hypothèses sur l’utilisation de la sémantique dans les moteurs de recherche.

Le Site Rank

Les principes du PageRank et de la pertinence dont vous trouverez les descriptions sur ce site, représentent sans doute encore les deux paramètres principaux selon lesquels Google classe ses résultats. L’analyse des liens entrants et des liens sortant de chaque page (voir Google bombing) et les informations recueillies par la GoogleBar font probablement partie des moyens qu’il utilise pour améliorer son fonctionnement.

Mais tout cela ne suffit pas à expliquer l’excellence de ses résultats.

Une hypothèse parfois évoquée est celle du « Site Rank ». Voici comment cela pourrait fonctionner :

Situation hypothétique : Google trouve deux pages dans lesquelles le mot « maison » est répété 20 fois. Il considère donc que ces deux pages sont pertinentes pour ce mot. Supposons que les deux pages aient un PageRank strictement identique. Comment les classer l’une par rapport à l’autre ?

Solutions hypothétiques :

  • Google fait la moyenne du PageRank de toutes les pages de chacun des deux sites. Il considère que le site ayant le plus fort PageRank moyen a sans doute plus d’autorité que l’autre et classe sa page en premier.
  • Google analyse toutes les pages des deux sites. Il compte le nombre de fois où le mot « maison » apparaît dans l’ensemble de chaque site. Il considère que le site qui fait figurer ce mot le plus souvent est davantage spécialisé dans le domaine de la maison. Le contenu de ses pages est donc probablement plus en rapport, plus pertinent pour le mot recherché. La page de ce site est classée en premier.
  • Google analyse toutes les pages des deux sites et ne retient que celles qui contiennent le mot « maison ». Il fait la moyenne des PageRank de ces pages et favorise le site qui obtient la meilleure moyenne.

Ces solutions font partie des hypothèses les plus simples associées au « Site Rank ». Les plus complexes font appel au principe des « champs lexicaux » qui appartiennent à la « sémantique ».

Définitions

Linguistique : étude du langage et des mots qui le composent.

Sémantique : branche de la linguistique qui s’intéresse au sens des mots et des phrases.

Champ lexical : Groupement de mots exprimant une même idée ou participant à un concept commun.

Les champs lexicaux

Si les ordinateurs actuels manquent autant d’intelligence, c’est en partie parce qu’ils sont dépourvus de nos cinq sens et de la richesse incroyable des informations qu’ils nous fournissent.

Google, pour sa part, ne manque pas d’informations : il en manipule tellement qu’il a de quoi en perdre la tête ! Voici comment il peut exploiter cette richesse extraordinaire pour en tirer une certaine forme d’intelligence :

Création des champs lexicaux

Pour créer des champs lexicaux à l’aide d’Internet, on commence par analyser quelques millions de pages de la façon suivante :

  • On dresse, pour chaque page, la liste des mots utilisés et on les classe par nombre d’occurrence.
  • On compare les listes obtenues les unes avec les autres et on identifie les points communs. On remarquera, par exemple, que les listes comportant le mot « maison » comportent souvent le mot « porte » et le mot « fenêtre ».
  • Les mots qui se retrouvent le plus souvent associés sont regroupés dans ce que l’on appelle un « champ lexical ».

A partir de ces données, l’ordinateur qui réalise ce travail et qui n’a jamais vu une maison de sa vie pourra vous affirmer qu’il existe un rapport entre « maison », « porte » et « fenêtre ». Il pourra vous affirmer des millions d’autres choses concernant chacun des mots que vous lui soumettrez. Il n’est pas encore intelligent, mais, grâce à la masse phénoménale des informations qu’il a analysé, il en prend doucement le chemin.

Utilisation des champs lexicaux

Reprenons notre hypothèse de départ consistant à classer deux pages présentant une pertinence identique sur le mot « maison » et ayant également un PageRank identique.

Voici quelques-unes des solutions que nous apporte les champs lexicaux :

  • On compare les mots contenus dans chaque page avec les mots appartenant au champ lexical de « maison ». La page ayant la meilleure concordance est classée en premier.
  • On compare les mots contenus dans l’ensemble des deux sites avec les mots appartenant au champ lexical de « maison ». La page appartenant au site ayant la meilleure concordance est classée en premier.
  • On examine les sites pointés par les liens sortant de chacune des deux pages. On compare leurs différents champs lexicaux avec le champ lexical du mot « maison ». La plus forte concordance décide du classement.
  • On examine les liens entrants (backlinks) de chacune des deux pages. On compare les champs lexicaux des pages d’origine avec le champ lexical du mot « maison ». La plus forte concordance décide du classement.
  • On tient compte de l’ensemble de ces facteurs que l’on pondère avec talent.

Ce type d’analyse demande évidemment des capacités de calcul énormes et on ignore où en sont exactement les principaux moteurs de recherche sur l’application de ces idées. L’avenir devrait en tout cas leur réserver une place de choix !

Autres paramètres pouvant influencer le SiteRank

Au fil de leurs brevets, les techniciens de Google ont évoqué d’autres paramètres qui pourraient avoir une influence sur cet hypothétique « SiteRank » :

  • L’âge du site, qui peut être considéré comme un critère de sérieux.
  • La durée pour laquelle le nom de domaine a été enregistré. Il s’agit aussi d’un critère de sérieux. On suppose qu’un domaine dont le nom a été enregistré pour 10 ans va travailler sa crédibilité sur le long terme.
  • L’hébergeur. Certains hébergeurs sont spécialisés dans des sites plus ou moins « pirates ». D’autres, qui comportent par exemple des sites officiels, pourraient apporter de la crédibilité à l’ensemble des sites qu’ils hébergent.

Le TrustRank

En mars 2004, deux chercheurs de l’université de Standford écrivent un article intitulé « Combating Web Spam with TrustRank » dans lequel ils proposent une technique apparentée au PageRank qui permettrait d’attribuer une « note de confiance » à chaque site du Web. (Le site Google-referencement propose une traduction du résumé de cet article).

Le principe en est simple :

  • On commence par identifier manuellement un groupe de sites irréprochables (sites gouvernementaux, sites d’université, etc.).
  • On identifie également, et toujours manuellement, un groupe de sites « pirates » (spameurs, voleurs de contenu, etc.)
  • En se basant sur les liens entrant et sortant de ces deux groupes, on définit des « sphères » de sites qui seront classés comme recommandables ou non recommandables selon le groupe d’origine.
  • La proximité de n’importe quel site avec une sphère ou avec l’autre permettra de lui attribuer cette note de confiance que l’on nomme « Trust Rank ».

On sait que Google est proche de l’université de Standford et l’on a pas tardé à soupçonner qu’il mettrait la main sur cette idée. Le terme de « TrustRank » a en effet été déposé par Google le 16 mars 2005, soit un an après la parution de cet article.

On dehors de ce dépôt de marque, on ignore tout de la façon dont Google aurait ou pourrait utiliser cette notion de TrustRank dans ses algorithmes. Contrairement aux rumeurs, aucun brevet n’a été déposé à ce sujet pour le moment.

Quoi qu’il en soit, cette idée ne pourrait au mieux que compléter le PageRank mais ne pourrait en aucun cas le remplacer comme cela à parfois été supposé.