Astuces pour webmasters
Analyse d'audience de sites web

Ce site comporte
près de 100 pages de conseils
pour la création
et le référencement
de sites Internet !

Découvrir le reste du site


Plan du site RankSpirit Plan du site

Small Google logo



 

akurbitz

Page de test 70b

duplication

Nous savons que les moteurs de recherche sont capables de repérer l'existence de plusieurs pages identiques sur le Web. Lorsque deux pages ont des contenus trop proches, l'une des deux est éliminée des index. Cette disposition, nommée "Duplicate content detection", permet d'éviter la présence de doublons inutiles dans les résultats de recherche. La page d'expérimentation que vous lisez actuellement est conçue dans le but d'en savoir d'avantage.

But de l'expérimentation

L'existence du phénomène nommé "Duplicate Content Filter " n'est plus guère contestée aujourd'hui.

Plusieurs expérientations ont déjà démontré son existence, les brevets déposés par Google et Yahoo en expliquent le principe et le bon sens suffit à comprendre son utilité.

Toutefois, si nous savons qu'il convient d'éviter les pages ayant des contenus "similaires", nous ignorons aujourd'hui ce qu'il faut entendre précisement par "similaires".

On entend souvent citer la valeur de 70% (des outils tels que Copyscape et Similar Page Checker permettent de comparer 2 pages et d'en établir le coefficient de similitude), mais à notre connaissance, aucune expérimentation n'a permis à ce jour de déterminer le pourcentage exact au-delà duquel Google, Yahoo et MSN considèrent qu'une page est "dupliquée" par rapport à une autre.

L'expérimentation menée à l'aide de la présente page démontre que ces 70% ne correspondent à aucune réalité et que la façon dont les moteurs détectent le Duplicate Content ne peut se résumer à un simple pourcentage de ressemblance.

Voir les résultats - Lire nos conclusions sur le "Duplicate-content"

Méthodologie

La page que vous être en train de lire à été dupliquée à plusieurs reprises à l'intérieur de ce site. Chacune des copies réalisées à été légèrement modifiée de façon à présenter une ressemblance particulière par rapport à la page d'origine.

Page comportant des balises <TITLE> et <DESCRIPTION>
identiques à l'originale
Page comportant des balises <TITLE> et <DESCRIPTION> différentes de l'originale. Le titre sous forme de texte est également différent.

Le texte ci-dessous subit des variations d'une page à l'autre, afin de générer des différences entre toutes les pages :

___________________________________________

Du sexe et de la violence ! Ce sont les ingrédients savoureux de ce palpitant récit qui se déroule au siècle dernier, alors que nous étions tous bien jeunes et que Google n’existait pas.

Chers lecteurs, voici la tragique histoire du :

Dr. Page and Mr. RankDocteur Page and Mr. Rank

Trois ans déjà ! Cela faisait à présent trois longues années que le docteur Page travaillait d’arrache-pied sur son site web, enrichissait ses dossiers et sa page de liens, corrigeait des détails infimes sur tel ou tel chapitre et optimisait ses balises meta dans un admirable souci de perfection.
Sa pugnacité avait d’ailleurs porté ses fruits : le site du bon docteur, considéré comme une référence par la communauté mondiale, accumulait les citations et les succès.

Les visiteurs, qui se comptaient chaque jour par milliers, approuvaient évidemment sans réserve le classement exemplaire de ce véritable monument du web dans les résultats des moteurs de recherche.

Ni cette réussite formidable, ni le soleil printanier de cette charmante matinée, ne parvenait pourtant à égayer le taciturne docteur Page. Son bureau perché en haut d’une tour d’où il voyait le monde à l’envers aurait sans doute donné à quiconque l’envie de devenir artiste. Pas à lui ! Comme chaque matin depuis trois ans, les yeux cernés et la moustache humide de café, il marmonnait des paroles indistinctes en consultant ses statistiques.
- Encore 18 nouveaux liens et 57 citations sur les forums, votre succès ne se dément pas ! constata sa jeune et charmante assistante, miss Stevenson.
- Nous n’y sommes pas, bon sang ! Nous n’y sommes pas ! grognait le docteur Page sans lui prêter attention.
- Dieu seul sait où vous voudriez être, Monsieur. Mais avez-vous seulement conscience du nombre de webmasters qui vous envient votre position ?
- Des médiocres ! explosa-t-il soudain, tous des médiocres ! Savent-ils seulement ce que je pourrais faire si seulement je parvenais… J’ai fais un rêve, voyez-vous miss Stevenson ?! J’ai rêvé qu’il était possible de créer deux versions bien distinctes de mon site ! Imaginez une seule seconde que je puisse rédiger mes pages en ne pensant qu’à l’intérêt des lecteurs ! Imaginez que je puisse me moquer totalement de la façon dont les robots des moteurs de recherche indexent mes textes !
- Mais… voyons… c’est impossible, bredouilla miss Stevenson que l’enthousiasme du docteur Page plongeait dans un embarra insidieux. Vous perdriez tous les visiteurs que vous amènent Yahoo et AltaVista ! Cela représente plus d’un tiers de votre public !
- Impossible, dites vous ? Ha, ha, ha, ha… Impossible, en effet ! Hurla le docteur Page dans un rire hystérique. Sauf si je parviens à mettre au point mon nouveau concept ! Je suis convaincu qu’il est possible d’isoler pour de bon toute la partie du site dédiée au référencement, figurez-vous ! Quelle pureté, Seigneur ! Quelle pureté je pourrais atteindre si seulement je pouvais…
Convaincu que le docteur Page finirait par se calmer et par retrouver la raison, miss Stevenson entama une retraite prudente vers son bureau.
- Assurément, docteur, assurément…
Le docteur se replongea lentement dans ses chiffres et miss Stevenson reprit son inventaire des sites critiquant Microsoft. Un nouvel annuaire qui recensait déjà 397 754 sites venait tout juste d’être mis en ligne sur ce thème et réclamait son attention.

Bien loin d’être anecdotique, cette étrange journée marqua le commencement d’une période trouble et teintée d’angoisse dans l’esprit de la jeune assistante. Le docteur Page semblait désormais comme possédé par sa nouvelle obsession. Ses cernes se creusaient chaque matin d’avantage et son agitation allait en grandissant avec la chaleur de l’été naissant. Les tendres intermèdes qu’elle avait coutume de partager avec lui s’espacèrent peu à peu et finirent par appartenir à un passé que ni l’un ni l’autre n’avait l’air de regretter.

Dans le même temps, miss Stevenson commença à noter des changements subtils dans le contenu du site du docteur Page. Cela ne tenait souvent qu’à quelques mots, mais les textes prenaient peu à peu une densité nouvelle, une précision inédite, une clarté et une concision tout à fait inégalées pour ce type de contenu. Auréolé par un éther sublime de beauté et d’équilibre, le site du docteur Page exhalait peu à peu la perfection absolue.

Le flot de visiteur s’intensifia, attirés par cette qualité extraordinaire et guidé par des moteurs de recherche qui assuraient au site une promotion d’un enthousiasme sans précédent.

La joie de miss Stevenson était pourtant troublée par une série de phénomènes étranges dont la fréquence augmentait insidieusement : les mots-clés associés au site perdaient de la cohérence. Ce fut tout d’abord un « Pamela Anderson » qui fit atterrir un internaute dans la rubrique « économie ». On vit ensuite un visiteur propulsé dans l’annuaire des correspondants chinois à la suite d’une recherche sur « minous asiatiques ».

 

Début des modifications concernant le texte original

Bien qu'elle soit menée jusqu'à son terme dans la page d'expérimentation originale, cette histoire a été tronquée sur la page que vous êtes en train de consulter.

Le texte qui suit figure ici pour "remplir" cette page et lui permettre d'avoir une taille identique à celle de la page de référence.

Les rumeurs des forums

La série de tests que nous effectuons au sujet du "Duplicate Content" vise à vérifier ou à infirmer la plupart des légendes qui courent au sujet de ce filtre. Voici certaines des rumeurs que l'on peut entendre sur les forums :

Double pénalisationLorsqu'il détecte deux pages identiques à travers le Web, Google pénalise les deux sites concernés. Cette rumeur semble absolument infondée au vue de notre expérience. Si Google supprime bien l'une des deux pages des résultats de recherche, il n'applique aucune pénalité à la page qu'il conserve ou au site contenant celle qu'il conserve.

désindexationLes pages victimes du Duplicate Content sont désindexées par Google. Il ne faut pas confondre "retiré des résultats de recherche" et "désindexées". Dans la plupart des cas, les pages victimes du "Duplicate Content" sont classées en "résultats complémentaires" et ne figurent plus dans les résultats. Mais elles figurent toujours dans l'index et peuvent être consultées en cliquant sur la phrase "relancer la recherche en incluant les pages ignorées" qui figure à la fin des résultats.

Perte de PRLorsqu'il détecte deux pages identiques à travers le Web, Google pénalise l'un des deux sites concernés. Aucune expérience ne semble démontrer cela. Le "Duplicate Content" est géré par un filtre et non par une pénalité. Si les doublons sont bel et bien retirés des résultats de recherche, les sites comportant ces doublons ne pas pénalisés d'une autre façon. Il n'y a en aucun cas une "perte de PageRank", comme certains semblent le supposer. Si une page avait un PageRank de 4 avant d'être retirée des résultats pour cause de "Duplicate Content", elle conservera son PageRank, même s'il ne lui sert plus à rien. La seule exception à cette règle a lieu lorsque 2 pages sont absolument identiques. Il s'agit alors d'un cas d'URL canonique. La perte de PageRank et la disparition complète de l'index peuvent être la conséquence d'une redirection sauvage ou d'une recopie totale de contenu (y compris l'en-tête du site et les balises de la page) mais pas d'une recopie partielle de contenu !

identifier l'auteurLorsqu'il détecte deux pages identiques à travers le Web, Google ne conserve pas forcément la page originale. Il peut privilégier le copieur au détriment de l'auteur. Cela semble hélas vérifié. Google semble privilégier le site le plus ancien et/ou le site ayant le plus fort PageRank. Il ne semble pas tenir compte de l'ancienneté des pages en elles-mêmes ou des liens qu'une page peut avoir vers l'autre. Les sites récents courent donc un risque majeur de se voir voler - avec profit pour le voleur - leurs contenus par des sites plus anciens et mieux référencés. Il est extrêmement regrettable que les liens portant une mention du type "Source de l'article : www.example.com" ne soient pas pris en compte dans la gestion du "Duplicate Content". Ce type de lien indique pourtant, dans bien des cas et d'une façon très claire, qui est l'auteur et qui est l'emprunteur.

Qui perd gagneN'autorisez jamais personne à recopier vos articles. Cela risquerait de vous faire désindexer pour cause de "Duplicate Content". Bien que ce "conseil" soit juste dans l'absolu, il ne nous semble pas judicieux. Vous pouvez aussi être gagnant dans le fait d'autoriser et d'encourager d'autres sites à copier le contenu de vos articles ! Si chacun de ces sites à la politesse de citer sa source, vous allez gagner de nombreux "backlinks" qui feront grimper votre PageRank. Si votre PageRank devient suffisamment important, vous continuerez de toute façon à figurer dans les résultats des recherches, même si quelques pirates vous pillent ensuite sans vous citer. Cela demande de la confiance, mais cette technique a fait ses preuves.

Site dynamiqueLes sites dynamiques sont plus souvent victimes du "Duplicate content filter" que les autres. Cette rumeur ne semble pas fondée. Les sites dynamiques mal gérés peuvent comporter des séries de pages ayant les mêmes balises <TITLE> et <DESCRIPTION>, ce qui est clairement une cause de problème. Ils peuvent également proposer de nombreuses pages ayant de fortes similitudes entre elles, ce qui peut évidemment poser problème. Mais si les gestionnaires de site parviennent à éviter ces deux erreurs, il n'y a aucune raison pour que ces sites soient plus sensibles que les autres au filtre gérant le "Duplicate Content". N'oublions que tous ceux qui consultent ce type de site (et notamment les robots) ne voient qu'un ensemble de pages codées en HTML et n'ont aucun moyen fiable de savoir si le site est statique ou dynamique.


Ce site comporte près de 100 pages de conseils
pour la création et le référencement de sites Internet !
>>>> Découvrir le reste du site <<<<

| Le programme RankSpirit | Créer son site Web | Référencement | Aspects Techniques
| Humeurs et réflexions |
| Annuaire d'annuaires | Les secrets de Google | Downloads | Liens et contacts |