Astuces pour webmasters
Analyse d'audience de sites web

Ce site comporte
près de 100 pages de conseils
pour la création
et le référencement
de sites Internet !

Découvrir le reste du site


Plan du site RankSpirit Plan du site

Small Google logo



 

akurbitz

Page d'expérimentation 50

duplication

Nous savons que les moteurs de recherche sont capables de repérer l'existence de plusieurs pages identiques sur le Web. Lorsque deux pages ont des contenus trop proches, l'une des deux est éliminée des index. Cette disposition, nommée "Duplicate content detection", permet d'éviter la présence de doublons inutiles dans les résultats de recherche. La page d'expérimentation que vous lisez actuellement est conçue dans le but d'en savoir d'avantage.

But de l'expérimentation

L'existence du phénomène nommé "Duplicate Content Filter " n'est plus guère contestée aujourd'hui.

Plusieurs expérientations ont déjà démontré son existence, les brevets déposés par Google et Yahoo en expliquent le principe et le bon sens suffit à comprendre son utilité.

Toutefois, si nous savons qu'il convient d'éviter les pages ayant des contenus "similaires", nous ignorons aujourd'hui ce qu'il faut entendre précisement par "similaires".

On entend souvent citer la valeur de 70% (des outils tels que Copyscape et Similar Page Checker permettent de comparer 2 pages et d'en établir le coefficient de similitude), mais à notre connaissance, aucune expérimentation n'a permis à ce jour de déterminer le pourcentage exact au-delà duquel Google, Yahoo et MSN considèrent qu'une page est "dupliquée" par rapport à une autre.

L'expérimentation menée à l'aide de la présente page démontre que ces 70% ne correspondent à aucune réalité et que la façon dont les moteurs détectent le Duplicate Content ne peut se résumer à un simple pourcentage de ressemblance.

Voir les résultats - Lire nos conclusions sur le "Duplicate-content"

Méthodologie

La page que vous être en train de lire à été dupliquée à plusieurs reprises à l'intérieur de ce site. Chacune des copies réalisées à été légèrement modifiée de façon à présenter une ressemblance particulière par rapport à la page d'origine.

Page comportant des balises <TITLE> et <DESCRIPTION>
identiques à l'originale
Page comportant des balises <TITLE> et <DESCRIPTION> différentes de l'originale. Le titre sous forme de texte est également différent.

Le texte ci-dessous subit des variations d'une page à l'autre, afin de générer des différences entre toutes les pages :

___________________________________________

Du sexe et de la violence ! Ce sont les ingrédients savoureux de ce palpitant récit qui se déroule au siècle dernier, alors que nous étions tous bien jeunes et que Google n’existait pas.

Chers lecteurs, voici la tragique histoire du :

Docteur Page and Mr. Rank

Trois ans déjà ! Cela faisait à présent trois longues années que le docteur Page travaillait d’arrache-pied sur son site web, enrichissait ses dossiers et sa page de liens, corrigeait des détails infimes sur tel ou tel chapitre et optimisait ses balises meta dans un admirable souci de perfection.
Sa pugnacité avait d’ailleurs porté ses fruits : le site du bon docteur, considéré comme une référence par la communauté mondiale, accumulait les citations et les succès.

Les visiteurs, qui se comptaient chaque jour par milliers, approuvaient évidemment sans réserve le classement exemplaire de ce véritable monument du web dans les résultats des moteurs de recherche.

Ni cette réussite formidable, ni le soleil printanier de cette charmante matinée, ne parvenait pourtant à égayer le taciturne docteur Page. Son bureau perché en haut d’une tour d’où il voyait le monde à l’envers aurait sans doute donné à quiconque l’envie de devenir artiste. Pas à lui ! Comme chaque matin depuis trois ans, les yeux cernés et la moustache humide de café, il marmonnait des paroles indistinctes en consultant ses statistiques.
- Encore 18 nouveaux liens et 57 citations sur les forums, votre succès ne se dément pas ! constata sa jeune et charmante assistante, miss Stevenson.
- Nous n’y sommes pas, bon sang ! Nous n’y sommes pas ! grognait le docteur Page sans lui prêter attention.
- Dieu seul sait où vous voudriez être, Monsieur. Mais avez-vous seulement conscience du nombre de webmasters qui vous envient votre position ?
- Des médiocres ! explosa-t-il soudain, tous des médiocres ! Savent-ils seulement ce que je pourrais faire si seulement je parvenais… J’ai fais un rêve, voyez-vous miss Stevenson ?! J’ai rêvé qu’il était possible de créer deux versions bien distinctes de mon site ! Imaginez une seule seconde que je puisse rédiger mes pages en ne pensant qu’à l’intérêt des lecteurs ! Imaginez que je puisse me moquer totalement de la façon dont les robots des moteurs de recherche indexent mes textes !
- Mais… voyons… c’est impossible, bredouilla miss Stevenson que l’enthousiasme du docteur Page plongeait dans un embarra insidieux. Vous perdriez tous les visiteurs que vous amènent Yahoo et AltaVista ! Cela représente plus d’un tiers de votre public !
- Impossible, dites vous ? Ha, ha, ha, ha… Impossible, en effet ! Hurla le docteur Page dans un rire hystérique. Sauf si je parviens à mettre au point mon nouveau concept !

 

Debut des modifications concernant le texte original :

Pour comprendre pourquoi cette histoire se termine si abruptement, n'hésitez pas à consulter les autres pages de cette expérimentation (chacune contient un petit texte explicatif). Voici une autre histoire tronquée dont le seul but et de remplir le bas de la présente page. Contrairement aux autres textes composés pour les besoins de cette expérimentation, cette histoire n'a jamais été achevée. Désolé ! Vous n'en connaîtrez pas la fin !

Une nuit de terreur sur le Web

Les dernières lueurs du trafic n'en finissaient pas de mourir sur la toile. Il était tard. Les quelques internautes pressés qui surfaient encore ici et là se déplaçaient en rasant les pages d'accueil, d'un clic furtif et incertain, s'excusant presque de leurs passages.

Les rumeurs qui courraient depuis quelques jours avaient semé le trouble sur le Web. Une terreur glacée et suintante, qui taisait son nom, semblait à présent peser sur la toile comme une brume crasseuse et donnait aux plus beaux liens des relents de deadlinks.

Jack se souciait peu de l'heure et se moquait des rumeurs comme de sa première ligne de code HTML. Il surfait d'une main sûre et décidée, le visage fermé, comme à son habitude.

Tout lui semblait très clair : il connaissait l'existence des SP (nom de code des « Suceurs de PageRank ») depuis longtemps et savait que les rondes incessantes des GoogleBots étaient impuissantes à résoudre la crise. Le mal était à l'abri, tapis dans son terrier glauque et puant, tirant ses ficelles visqueuses sans jamais se dévoiler. Le seul moyen de le déloger était de surmonter son propre dégoût et d'enfoncer son navigateur assez profond dans cette boue putride pour l'attraper par l'hébergeur et serrer, serrer, jusqu'à lui faire cracher ses derniers liens.

Mais Jack se sentait seul pour mener cet épuisant combat. Terriblement seul, depuis que son principal partenaire s'était fait blacklisté et gisait sans vie, au fond d'un réseau local déserté.

C'était ainsi, ce fichu métier était dangereux et les chasseurs de SP se faisaient de plus en plus rares. Fréquenter la peur et la misère demandait une force d'âme que peu de webmasters, hélas, possédaient. Les machinations diaboliques des SP avaient vite fait de faire sandboxer les plus faibles quand ce n'était pas l'appât du gain qui les faisait basculer du côté obscur du PageRank.

Jeck secoua sa souris pour chasser ces pensées trop sombres. Quelqu'un frappait à sa messagerie. A cette heure ci, c'était inhabituel.

L'homme était vêtu d'un avatar sombre et passe-partout. Son I.P. portait l'indicatif de Santa Clara. Son pseudo d'une banalité soigneusement étudiée semblait être conçu pour être oublié dans les secondes qui suivraient sa visite. Jack devina immédiatement à qui il avait affaire : un tel raffinement dans l'anonymat ne pouvait qu'être l'oeuvre d'un GoogleCop, la milice mythique et secrète de Google, composée d'agent hautement qualifiés et triés sur le volet. Il ouvrit sa cession d'un simple « hello », s'interrogeant sur le sens de cette surprenante visite.
- Bonsoir Jack. Vous ne dormez pas, à ce que je vois.
- Vous non plus, on dirait. Je ne savais pas que les GoogleCop faisaient leurs tournées aussi tard.
- Me voilà déjà démasqué. Vous êtes toujours aussi perspicace, mon cher Jack. Comment se porte votre site ces temps ci ?
- Gardez vos boniments pour votre service de réclamation. Vous n'êtes pas là pour parler de mon site, pas vrai ? Alors qu'est-ce qui me vaut l'honneur de parler avec la milice royale à cette heure ci ?
- J'aurai quelque chose à vous montrer si vous n'êtes pas trop épuisé pour ça.
- Il y a longtemps que je ne dors plus, et vous le savez. De quel lien s'agit-t-il ?
- Un petit site anglais, tout ce qu'il a de plus banal. Regardez, c'est un code PHP standard...

Jack n'eut besoin que de quelques instants pour se faire une opinion :

- Une vraie saloperie, oui ! Ce truc là n'est pas du tout sécurisé !
- C'est pour ça qu'il est intéressant. Balancez-lui votre traceur d'I.P. Et quand vous aurez fini, allez faire un tour sur le livre d'Or.

Avec l'incroyable dextérité que ses années de pratique lui avait permis de développer, Jack lança ses trois sondes sur l'hébergeur et remplaça le fichier HTAccess d'un mouvement souple et précis. Le site était à présent à sa merci. Il greffa un patch sur le webalyser et connecta son analyseur de logs sur le dossier qu'il venait de créer.

L'opération n'avait duré en tout et pour tout qu'une poignée de secondes. Désormais, Jack pouvait suivre à la trace toutes les I.P. des visiteurs du site.

Le GoogleCop, avait suivi la procédure depuis son synchroniseur FTP.
- Remarquable, tout à fait remarquable ! Quelle élégance dans la méthode !
- Vous n'étiez pas censé voir ça. On dirait que vos gadgets de flics progressent de jour en jour.
- Dites-moi, Jack, est-ce que votre système de traçage traverse les firewalls ?
- Bien sûr qu'il les traverse ! Vous me prenez pour qui ?
- Calmez-vous, je voulais juste être tout à fait sûr. Très bien, allons voir le livre d'Or de ce site à présent.

Jack avait une longue habitude des affreux spectacles que lui préparaient les Suceurs de PageRank, mais ce livre d'Or là lui fit frémir les balises et l'amena presque au bord de la nausée : les messages promotionnels y grouillaient comme des vers sur un cadavre. Vendeurs de copies pirates, affiliés et dark SEO semblaient s'être donné le mot pour faire la page la plus chargée et la plus repoussante du Web. Les mots-clés s'y emmêlaient, les mangeurs de cigogne festoyaient avec les sorciers gloutons, imprégnant l'ensemble d'une odeur répugnante.

- J'ai vu pas mal de saloperies dans ma vie, s'exclama Jack à travers son clavier, mais là, je dois dire que ça pue salement !
- Vous savez pourquoi Google a baptisé son cimetière du doux nom de "sandbox" ? demanda l'agent
- Je parie que vous allez me le dire, grogna Jack du bout des doigts
- Faites l'expérience : posez un tas de sable dans votre jardin et vous verrez ce qui se passera : tous les chats et les chiens du quartier vont se faire une joie d'y déposer leurs excréments. Au bout de quelques jours, votre tas de sable dégage une odeur de merdre qui n'a pas son pareil.
- Ouais, et encore, l'odeur est pire quand on se met à remuer le sable et qu'on remet à l'air libre les horreurs qui s'y cachent.
- Comme vous dites, il vaut mieux ne pas remuer. Vous allez garder votre tas de sable puant au milieu de votre jardin, n'osant plus y toucher de peur d'aggraver la situation.
- Et qui s'occupe de votre jardin à vous ? Interrogea Jack. Où elle est votre sandbox ? Vous avez construit un datacenter blindé, juste pour la contenir ? Un truc avec des sas d'isolation, des serpillères sous les portes et un placard à l'entrée, plein de combinaisons intégrales, de masques et de bouteilles à oxygène ?
- C'est à peu près ça, oui. On a pris nos précautions.
- Putain ! L'enfer est sur terre, c'est sûr !
- Où que soit l'homme, l'enfer est avec lui.


Ce site comporte près de 100 pages de conseils
pour la création et le référencement de sites Internet !
>>>> Découvrir le reste du site <<<<

| Le programme RankSpirit | Créer son site Web | Référencement | Aspects Techniques
| Humeurs et réflexions |
| Annuaire d'annuaires | Les secrets de Google | Downloads | Liens et contacts |