English Version
cloacking

Qu'est-ce que le "cloaking" ?

Suite à une recherche dans Google, vous cliquez sur le titre d'un site et vous atterrissez dans une page qui ne comporte aucun des mots que vous aviez utilisé dans votre recherche. Google a-t-il perdu la boule ? Il y a de fortes chances pour qu'il s'agisse plutôt d'un cloaking !
A lire en complément de cet article : Le Référencement et la morale

Accueil > cloacking

En bref ...

A une même adresse, deux internautes pourront voir des pages tout à fait différentes. Tel est le phénomène du cloaking.

Les raisons "honnêtes" d'avoir recours au cloaking sont diverses:

Gestion des langues Présenter aux visiteurs une page web écrite dans leur langue natale,
Gestion des langues Adapter la présentation de la page au navigateur utilisé (Explorer ou Mozilla, par exemple),
Localisation Afficher des publicités ciblées,
Protection Protéger les mots-clés d'une page vis-à-vis de ses concurrents,
Interdiction pour les robots Interdire l'accès à une page aux robots collecteurs d'emails,

La raison "malhonnête" la plus fréquente consiste à leurrer les robots des moteurs de recherche en leur présentant une page dont le contenu ne correspond pas au contenu vu par les visiteurs humains.

Bien que cette technique ait permis à certains sites d'obtenir un meilleur positionnement dans un grand nombre d'occasion, nous vous déconseillons formellement d'y avoir recours. Les moteurs de recherche développent en effet des outils de plus en plus efficaces pour détecter les sites pratiquant le cloaking "malhonnête" et la distribution de pénalités a déjà commencé. C'est aujourd'hui un moyen radical pour finir dans le bac-à-sable de Google.



En détail ...

Comment ça marche ?

Lorsque vous visitez une page web, votre navigateur (Internet Explorer, Mozilla, Netscape,…) commence par envoyer une requête HTTP de ce type au serveur du site:

GET: /indexfr.php
HOST: www.rankspirit.com
USER_AGENT=Mozilla/4.0 (compatible; MSIE 6.0; Windows XP; FREE)
REFERRER=http://www.google.com/search?hl=fr&q=analyse+d%27audience&lr=
REMOTE_ADDR=255.64.12.01

Get GET contient le nom de la page web que vous voulez voir (dans cet exemple index.php)
Host HOST contient le nom du site sur lequel se trouve cette page
User_Agent USER_AGENT est la "signature" de votre navigateur (dans cet exemple Internet Explorer 6, sous windows XP, connecté par free.fr)
Referrer REFERRER est le site duquel vous venez (dans cet exemple, vous avez lancé une recherche dans Google avant d'accéder au site RankSpirit.com)
Remote_adr REMOTE_ADDR est votre adresse IP

Dès réception de cette requête HTTP, le serveur du site charge (pour les sites HTML) ou génère (pour les sites PHP) la page que vous demandez, puis la renvoie vers votre navigateur qui se charge de l'afficher: vous pouvez alors la lire.

Un site web qui utilise un langage côté serveur (PHP, ASP, CGI, SSI, …) peut donc très facilement adapter (cloaker) la page qu'il vous renvoie en fonction des informations transmises dans votre requête.
C'est sur les informations USER_AGENT (navigateur) et REMOTE_ADDR (adresse IP) que repose le cloaking à destination des moteurs de recherche.

Si l'adresse IP permet en effet de déterminer dans quel pays se trouve le visiteur, elle permet aussi de reconnaître un robot d'indexation (Certains sites tiennent à jour la liste des IP des principaux robots d'indexation pour faciliter leur détection par les cloakers). Il ne reste plus qu'à générer des pages remplies de mots clés pour les présenter aux robots et leur faire croire que le contenu du site visité est d'une richesse extraordinaire.

Il va sans dire que cette technique est extrêmement pénalisante pour les visiteurs : vous recherchez "voitures" et vous tombez sur un site pornographique n'ayant aucun rapport avec l'automobile. Il est donc logique que les moteurs de recherche cherchent de plus en plus à s'en protéger.

 

La variante Javascript/Flash/Dhtml

Une autre façon de pratiquer le cloacking consiste à utiliser l'une des limitations actuelles des moteurs : ils semblent en effet avoir des difficultés à comprendre les codes Javascript, Flash ou DHTML.

Il suffit donc de fabriquer une page bourrée de mots clés qui comporte une redirection dans l'un de ces langages vers une page plus "propre". Les navigateurs suivront la redirection et monteront aux utilisateurs la page "propre" tandis que les moteurs indexeront la page remplie de mots clés et la feront figurer dans leurs résultats.

Cette technique, qui fait partie de ce que l'on nomme "les pages satellites" est simple à mettre en oeuvre, mais représente une tricherie pure et dure qui ne peut prétendre avoir d'autres objectifs que la volonté de tromper les moteurs (et donc, leurs utilisateurs).

Le site de la firme BMW s'est vu blacklisté en début d'année 2006 à cause d'une pratique de ce type. Il est possible que Google prenne désormais le temps d'interprêter tout ou partie du code Javascript qu'il trouve dans les pages examinées.

 

Autres variantes

Un texte blanc sur fond blanc, ou noir sur fond noir, sera invisible à vos visiteurs, mais sera tout de même pris en compte par certains moteurs. Ce texte peut être une liste de mots clés destinée à augmenter la pertinence de vos pages sur certains termes. Cette technique est l'une des plus anciennes du genre et semble être aujourd'hui facilement identifiée (et punie) par la plupart des moteurs. Elle présente également l'avantage (ou l'inconvénient) d'être facile à détecter par un internaute un peu malin : il suffit de sélectionner avec la souris les zones qui semblent suspectes pour y voir apparaître les textes masqués par ce moyen. zone blanche suspecteEssayez en sélectionnant le paragraphe que vous êtes en train de lire !!

Une autre technique consiste à utiliser les "frames" (cadres). Dans une page de ce type, il est en effet possible de définir une frame aux dimensions microscopiques ou située "hors écran" qui sera invisible par les internautes.

Le CSS permet également de positionner un bloc par-dessus un autre et donne ainsi la possibilité de masquer une partie du contenu de la page aux visiteurs humains. Encore une fois, ce contenu invisible peut être une liste de mots clés destinée à rendre votre page plus "intéressante" pour les moteurs.

 

Les cloakers sont-ils des justiciers ?

Dans la mesure ou les moteurs de recherche sont des robots "stupides" qui ne voient pas toujours les pages de la même façon que les humains, il est facile de les accuser de classer "injustement" les sites qu'ils répertorient. Le cloaking n'aurait donc que pour objectif de remettre les choses à leur place et de réparer certaines de ces injustices.

Ce prétexte, pour le moins hypocrite, est invoqué par certains cloakers pour justifier leur action. Le même genre de prétexte est invoqué par certains tueurs en série qui prétendent "nettoyer" la société plus efficacement que la justice officielle.

Certes, Google et les autres moteurs, n'ont pas encore le statut de "juges officiels du Web", et aucune loi (à par la leur) n'interdit de les piéger. Mais prétendre mener une action plus ou moins "morale" en s'adonnant à ce petit jeu est à notre sens un vrai "foutage de Google".

Nous développons ces points de vue dans l'article Le Référencement et la morale.

 

Pourquoi et comment se fait-on attraper ?

Google a mis en place un service de dénonciation destiné aux webmasters qui s'estiment lésés par les pratiques de certains de leurs concurrents ou aux utilisateurs qui s'estiment trompés par le contenu de certains sites.

On ne sait pas exactement comment sont traitées les plaintes enregistrées par ce service, mais elles ont, dans certains cas, abouti à la pénalisation de sites qui pratiquaient le cloaking.

Il ne fait par ailleurs aucun doute que Google a mis en place des "robots masqués", qui explorent le Web en se faisant passer pour humains (il n'y a pas de véritables obstacles technologiques à cette pratique). Il suffit de croiser les résultats de ce type d'exploration avec ceux des robots "classiques" pour détecter n'importe quelle forme de cloaking. Cette forme d'exploration étant cependant plus lente que la forme habituelle, la mise en évidence des sites cloakés - cachés au milieu des 8 milliards de pages qui figurent dans l'index de Google - prendra sans doute du temps.


La première partie de cette page est inspirée d'une série d'articles proposée sur ActuLab
Pour en savoir plus sur les robots
cloaking et autres subtilités (réservées aux pros),
un excellent site : http://danzcontrib2.free.fr/pieges.php

Demandez un devis à l’agence SEO.fr (15 ans d’expérience)