Galaxie de sites

Le "SiteRank", le "TrustRank"
et la sémantique

L’existence du "SiteRank" est une hypothèse. Cette hypothèse suppose que Google analyse l’ensemble de chaque site et tient compte de cette analyse globale pour classer chacune des pages qui le composent. Elle est souvent associée aux hypothèses sur l'utilisation de la sémantique dans les moteurs de recherche.
A lire en complément de cet article : Google, comment ça marche

Accueil > siterank
Dans cette page : Le SiteRank - Les champs lexicaux - Autres paramètres pouvant influencer le SiteRank - Le TrustRank.

Le "Site Rank"

Définitions

Linguistique : étude du langage et des mots qui le composent.

Sémantique : branche de la linguistique qui s'intéresse au sens des mots et des phrases.

Champ lexical : Groupement de mots exprimant une même idée ou participant à un concept commun.

Les principes du PageRank et de la pertinence dont vous trouverez les descriptions sur ce site, représentent sans doute encore les deux paramètres principaux selon lesquels Google classe ses résultats. L'analyse des liens entrants et des liens sortant de chaque page (voir Google bombing) et les informations recueillies par la GoogleBar font probablement partie des moyens qu'il utilise pour améliorer son fonctionnement.

Mais tout cela ne suffit pas à expliquer l'excellence de ses résultats.

Une hypothèse parfois évoquée est celle du "Site Rank". Voici comment cela pourrait fonctionner :

Situation hypothétique : Google trouve deux pages dans lesquelles le mot "maison" est répété 20 fois. Il considère donc que ces deux pages sont pertinentes pour ce mot. Supposons que les deux pages aient un PageRank strictement identique. Comment les classer l'une par rapport à l'autre ?

Solutions hypothétiques :
moyenne des pageranks Google fait la moyenne du PageRank de toutes les pages de chacun des deux sites. Il considère que le site ayant le plus fort PageRank moyen a sans doute plus d'autorité que l'autre et classe sa page en premier.
moyenne des pertinences Google analyse toutes les pages des deux sites. Il compte le nombre de fois où le mot "maison" apparaît dans l'ensemble de chaque site. Il considère que le site qui fait figurer ce mot le plus souvent est davantage spécialisé dans le domaine de la maison. Le contenu de ses pages est donc probablement plus en rapport, plus pertinent pour le mot recherché. La page de ce site est classée en premier.
pagerank et pertinence Google analyse toutes les pages des deux sites et ne retient que celles qui contiennent le mot "maison". Il fait la moyenne des PageRank de ces pages et favorise le site qui obtient la meilleure moyenne.

Ces solutions font partie des hypothèses les plus simples associées au "Site Rank". Les plus complexes font appel au principe des "champs lexicaux" qui appartiennent à la "sémantique".



Les champs lexicaux

Si les ordinateurs actuels manquent autant d'intelligence, c'est en partie parce qu'ils sont dépourvus de nos cinq sens et de la richesse incroyable des informations qu'ils nous fournissent.

Google, pour sa part, ne manque pas d'informations : il en manipule tellement qu'il a de quoi en perdre la tête ! Voici comment il peut exploiter cette richesse extraordinaire pour en tirer une certaine forme d'intelligence :

Création des champs lexicaux

Pour créer des champs lexicaux à l'aide d'Internet, on commence par analyser quelques millions de pages de la façon suivante :

mots principauxOn dresse, pour chaque page, la liste des mots utilisés et on les classe par nombre d'occurrence.
mots communs On compare les listes obtenues les unes avec les autres et on identifie les points communs. On remarquera, par exemple, que les listes comportant le mot "maison" comportent souvent le mot "porte" et le mot "fenêtre".
champ lexical Les mots qui se retrouvent le plus souvent associés sont regroupés dans ce que l'on appelle un "champ lexical".

A partir de ces données, l'ordinateur qui réalise ce travail et qui n'a jamais vu une maison de sa vie pourra vous affirmer qu'il existe un rapport entre "maison", "porte" et "fenêtre". Il pourra vous affirmer des millions d'autres choses concernant chacun des mots que vous lui soumettrez. Il n'est pas encore intelligent, mais, grâce à la masse phénoménale des informations qu'il a analysé, il en prend doucement le chemin.

Utilisation des champs lexicaux

Reprenons notre hypothèse de départ consistant à classer deux pages présentant une pertinence identique sur le mot "maison" et ayant également un PageRank identique.

Voici quelques-unes des solutions que nous apporte les champs lexicaux :
concordance lexicale de la pageOn compare les mots contenus dans chaque page avec les mots appartenant au champ lexical de "maison". La page ayant la meilleure concordance est classée en premier.
concordance lexicale du siteOn compare les mots contenus dans l'ensemble des deux sites avec les mots appartenant au champ lexical de "maison". La page appartenant au site ayant la meilleure concordance est classée en premier.
concordance lexicale des liens sortantOn examine les sites pointés par les liens sortant de chacune des deux pages. On compare leurs différents champs lexicaux avec le champ lexical du mot "maison". La plus forte concordance décide du classement.
concordance lexicale des liens entrantsOn examine les liens entrants (backlinks) de chacune des deux pages. On compare les champs lexicaux des pages d'origine avec le champ lexical du mot "maison". La plus forte concordance décide du classement.
pondérationOn tient compte de l'ensemble de ces facteurs que l'on pondère avec talent.

Ce type d'analyse demande évidemment des capacités de calcul énormes et on ignore où en sont exactement les principaux moteurs de recherche sur l'application de ces idées. L'avenir devrait en tout cas leur réserver une place de choix !

A lire en complément "Champ lexical et champ sémantique" : IIRCA
et "Quelques pistes pour comprendre le nouvel algorithme de Google" par Cariboo (WebmasterHub)


Autres paramètres pouvant influencer le "SiteRank"

Au fil de leurs brevets, les techniciens de Google ont évoqué d'autres paramètres qui pourraient avoir une influence sur cet hypothétique "SiteRank" :

anciennetéL'âge du site, qui peut être considéré comme un critère de sérieux.
Nom de domaineLa durée pour laquelle le nom de domaine a été enregistré. Il s'agit aussi d'un critère de sérieux. On suppose qu'un domaine dont le nom a été enregistré pour 10 ans va travailler sa crédibilité sur le long terme.
Qualité de l'hébergeurL'hébergeur. Certains hébergeurs sont spécialisés dans des sites plus ou moins "pirates". D'autres, qui comportent par exemple des sites officiels, pourraient apporter de la crédibilité à l'ensemble des sites qu'ils hébergent.

Le "TrustRank"

En mars 2004, deux chercheurs de l'université de Standford écrivent un article intitulé "Combating Web Spam with TrustRank" dans lequel ils proposent une technique apparentée au PageRank qui permettrait d'attribuer une "note de confiance" à chaque site du Web. (Le site Google-referencement propose une traduction du résumé de cet article).

Le principe en est simple :
- On commence par identifier manuellement un groupe de sites irréprochables (sites gouvernementaux, sites d'université, etc.).
- On identifie également, et toujours manuellement, un groupe de sites "pirates" (spameurs, voleurs de contenu, etc.)

trust ranksphères d'influenceEn se basant sur les liens entrant et sortant de ces deux groupes, on définit des "sphères" de sites qui seront classés comme recommandables ou non recommandables selon le groupe d'origine.

Trust RankLa proximité de n'importe quel site avec une sphère ou avec l'autre permettra de lui attribuer cette note de confiance que l'on nomme "Trust Rank".

On sait que Google est proche de l'université de Standford et l'on a pas tardé à soupçonner qu'il mettrait la main sur cette idée. Le terme de "TrustRank" a en effet été déposé par Google le 16 mars 2005, soit un an après la parution de cet article. (Pour consulter ce dépôt de marque, cliquez >>ICI<< [uspto.gov] , puis sur "New User Form Search (Basic)", et faites ensuite une recherche sur le terme "TrustRank").

On dehors de ce dépôt de marque, on ignore tout de la façon dont Google aurait ou pourrait utiliser cette notion de TrustRank dans ses algorithmes. Contrairement aux rumeurs, aucun brevet n'a été déposé à ce sujet pour le moment.

Quoi qu'il en soit, cette idée ne pourrait au mieux que compléter le PageRank mais ne pourrait en aucun cas le remplacer comme cela à parfois été supposé.

 

A lire également :

les commentaires très documentés laissés par les lecteurs de Slashdot (en anglais)
et les commentaires de Jean Veronis sur son blog (en français)

Demandez un devis à l’agence SEO.fr (15 ans d’expérience)