![]() |
|
Ce site comporte près de 100 pages de conseils pour la création et le référencement de sites Internet !
|

akurbitz |
Page de test 60b |
![]() |
Nous savons que les moteurs de recherche sont capables de repérer l'existence de plusieurs pages identiques sur le Web. Lorsque deux pages ont des contenus trop proches, l'une des deux est éliminée des index. Cette disposition, nommée "Duplicate content detection", permet d'éviter la présence de doublons inutiles dans les résultats de recherche. La page d'expérimentation que vous lisez actuellement est conçue dans le but d'en savoir d'avantage.
But de l'expérimentation
L'existence du phénomène nommé "Duplicate Content Filter " n'est plus guère contestée aujourd'hui.
Plusieurs expérientations ont déjà démontré son existence, les brevets déposés par Google et Yahoo en expliquent le principe et le bon sens suffit à comprendre son utilité.
Toutefois, si nous savons qu'il convient d'éviter les pages ayant des contenus "similaires", nous ignorons aujourd'hui ce qu'il faut entendre précisement par "similaires".
On entend souvent citer la valeur de 70% (des outils tels que Copyscape et Similar Page Checker permettent de comparer 2 pages et d'en établir le coefficient de similitude), mais à notre connaissance, aucune expérimentation n'a permis à ce jour de déterminer le pourcentage exact au-delà duquel Google, Yahoo et MSN considèrent qu'une page est "dupliquée" par rapport à une autre.
L'expérimentation menée à l'aide de la présente page démontre que ces 70% ne correspondent à aucune réalité et que la façon dont les moteurs détectent le Duplicate Content ne peut se résumer à un simple pourcentage de ressemblance.
Méthodologie
La page que vous être en train de lire à été dupliquée à plusieurs reprises à l'intérieur de ce site. Chacune des copies réalisées à été légèrement modifiée de façon à présenter une ressemblance particulière par rapport à la page d'origine.
Page comportant des balises <TITLE> et <DESCRIPTION> identiques à l'originale |
Page comportant des balises <TITLE> et <DESCRIPTION> différentes de l'originale. Le titre sous forme de texte est également différent. |
Le texte ci-dessous subit des variations d'une page à l'autre, afin de générer des différences entre toutes les pages :
Du sexe et de la violence ! Ce sont les ingrédients savoureux de ce palpitant récit qui se déroule au siècle dernier, alors que nous étions tous bien jeunes et que Google n’existait pas.
Chers lecteurs, voici la tragique histoire du :
Docteur Page and Mr. Rank
Trois ans déjà ! Cela faisait à présent trois longues années que le docteur Page travaillait d’arrache-pied sur son site web, enrichissait ses dossiers et sa page de liens, corrigeait des détails infimes sur tel ou tel chapitre et optimisait ses balises meta dans un admirable souci de perfection.
Sa pugnacité avait d’ailleurs porté ses fruits : le site du bon docteur, considéré comme une référence par la communauté mondiale, accumulait les citations et les succès.
Les visiteurs, qui se comptaient chaque jour par milliers, approuvaient évidemment sans réserve le classement exemplaire de ce véritable monument du web dans les résultats des moteurs de recherche.
Ni cette réussite formidable, ni le soleil printanier de cette charmante matinée, ne parvenait pourtant à égayer le taciturne docteur Page. Son bureau perché en haut d’une tour d’où il voyait le monde à l’envers aurait sans doute donné à quiconque l’envie de devenir artiste. Pas à lui ! Comme chaque matin depuis trois ans, les yeux cernés et la moustache humide de café, il marmonnait des paroles indistinctes en consultant ses statistiques.
- Encore 18 nouveaux liens et 57 citations sur les forums, votre succès ne se dément pas ! constata sa jeune et charmante assistante, miss Stevenson.
- Nous n’y sommes pas, bon sang ! Nous n’y sommes pas ! grognait le docteur Page sans lui prêter attention.
- Dieu seul sait où vous voudriez être, Monsieur. Mais avez-vous seulement conscience du nombre de webmasters qui vous envient votre position ?
- Des médiocres ! explosa-t-il soudain, tous des médiocres ! Savent-ils seulement ce que je pourrais faire si seulement je parvenais… J’ai fais un rêve, voyez-vous miss Stevenson ?! J’ai rêvé qu’il était possible de créer deux versions bien distinctes de mon site ! Imaginez une seule seconde que je puisse rédiger mes pages en ne pensant qu’à l’intérêt des lecteurs ! Imaginez que je puisse me moquer totalement de la façon dont les robots des moteurs de recherche indexent mes textes !
- Mais… voyons… c’est impossible, bredouilla miss Stevenson que l’enthousiasme du docteur Page plongeait dans un embarra insidieux. Vous perdriez tous les visiteurs que vous amènent Yahoo et AltaVista ! Cela représente plus d’un tiers de votre public !
- Impossible, dites vous ? Ha, ha, ha, ha… Impossible, en effet ! Hurla le docteur Page dans un rire hystérique. Sauf si je parviens à mettre au point mon nouveau concept ! Je suis convaincu qu’il est possible d’isoler pour de bon toute la partie du site dédiée au référencement, figurez-vous ! Quelle pureté, Seigneur ! Quelle pureté je pourrais atteindre si seulement je pouvais…
Convaincu que le docteur Page finirait par se calmer et par retrouver la raison, miss Stevenson entama une retraite prudente vers son bureau.
- Assurément, docteur, assurément…
Le docteur se replongea lentement dans ses chiffres et miss Stevenson reprit son inventaire des sites critiquant Microsoft. Un nouvel annuaire qui recensait déjà 397 754 sites venait tout juste d’être mis en ligne sur ce thème et réclamait son attention.
Bien loin d’être anecdotique, cette étrange journée marqua le commencement d’une période trouble et teintée d’angoisse dans l’esprit de la jeune assistante. Le docteur Page semblait désormais comme possédé par sa nouvelle obsession. Ses cernes se creusaient chaque matin d’avantage et son agitation allait en grandissant avec la chaleur de l’été naissant.
Ceux qui souhaitent lire la suite de cette histoire peuvent consulter la page originale de cette série concernant nos expérimentations sur la gestion du "duplicate content" par les moteurs de recherche.
Le texte qui suit n'est placé là que pour remplir la page que vous êtes en train de lire afin de lui permettre de conserver une taille proche de celle de la page de référence tout en présentant une différence de 40% avec elle.
Et si cette explication ne parvient pas à vous satisfaire, disons qu'il s'agit d'un interruption momentanée de cette rédaction, tout à fait indépendante de la volonté de son auteur. Mais nous avons encore l'antenne ! Profitons-en pour nous détendre et offrons aux innombrables amateurs de poésie qui visitent ce site, un petit intermède sans prétention :
L'index du domaine a volé sur la Toile,
Traversant les serveurs en ligne et en étoile.
Sa noble profondeur aux innombrables liens,
S'est livrée toute entière aux surfeurs incertains.
Il s'est ouvert au monde, et pétri de courage,
Il expose à chacun, chacune de ses pages.
Le voici, vaste monde, il s'offre à ton regard,
Voit comme il est vaillant, et mesure son espoir.
Il voit le firmament au bout de son chemin.
Est-il fou de penser qu'il pourra le toucher ?
Y frotter ses balises, le tenir dans sa main,
En faire son compagnon jusqu'à l'éternité ?
Il est fier et confiant, il connaît sa valeur.
Il ne voit pas pourquoi il devrait avoir peur.
Ses pages sont superbes, elles sont irréprochables.
Son domaine est parfait, à nul autre semblable.
Hélas ! La perfection est une valeur abstraite,
Qui n'est point partagée comme elle devrait l'être.
Par ici ou par là, il existe toujours,
Un saboteur infâme qui assombri nos jours.
Un triste webmaster sans imagination,
Repére sans tarder la belle création,
Qui grimpe sans encombre dans les classements
Séduisant les moteurs et les étourdissant.
Sa jalousie obscène est bien vite attisée.
Pourquoi lui et pas moi ! Se met-il à crier.
Aveugle à l'évidence et sottement blessé,
Il conçoit le projet de tout récupérer.
S'en est fini de toi, hurle-t-il à l'index,
Ta gloire est usurpée, c'est cela qui me vexe !
Je j'avais mérité grâce à tous mes efforts,
C'est moi, le vrai champion et les moteurs ont tort !
Mais d'effort, il n'avait, en triste vérité,
Jamais vraiment donné dans ses travaux bâclés.
Et il ne compte pas, pour son méchant projet,
En faire de véritables, qui l'eussent épuisé.
Son idée est fort simple : il va tout recopier,
Mettre tout à son nom, et tout s'approprier.
Et c'est bien ce qu'il fait : il aspire le site,
Et change les en-têtes par d'autres illicites.
Google ne tarde pas à refaire une danse,
Et se trouve étonné par cette ressemblance.
Mais qui donc est l'auteur ? Qui donc est le copieur ?
Est bientôt la question de ses datacenters...
Ce "duplicate content" est tout à fait flagrant,
Et il lui faut trancher, entre les prétendants.
Ne sachant qui choisir, et qui pénaliser,
Il prend le plus ancien, l'autre est éliminé.
Notre index est chanceux car par un pur hasard,
Son site est bien plus vieux que celui du lascard,
Qui croyait le spolier et qui se voit puni,
Par son vilain forfait et se trouve banni.
Cette histoire fini bien. Mais n'en déduisez pas
Que c'est toujours le cas. Il arrive parfois
Que le bien soit puni et que le mal festoie.
Sur la toile comme ailleurs, l'injustice est bien là.
Pour conclure cet intermède poétique, voici le résultat d'une traduction automatique effectuée par Google : un pur moment de bonheur artistique !
Dans l'index comme en cette année, résultats omis après 3 pages, résultats supplémentaires, 302 liants, 301 problèmes, je pourrions aller sur ceci est substance sérieuse, pas comment j'obtiens le genre classé de substance et ils sont maintenant énumérés. Pourquoi vous filtreriez les pages internes du google, si son premier nom de domaine au-dessous de, vous ne peut pas écrire un texte différent à chaque produit ou que diriez-vous des images l'image l'indique toute pas le texte, tellement il y a également un texte de limite là. On attend avec intérêt Microsoft Vista avec la recherche de bureau.
Vous ne comprenez rien à ce que dit ce texte ? C'est normal ! Il ne figure pas ici pour être compris ! Il ne s'agit que d'un texte de remplissage. Si vous êtes arrivé là par hasard, lisez ce qui figure en introdution de cette page afin de comprendre pour quelle raison elle existe.
Les bouts pour vous assurer évitent le contenu reproduit mettent une notification de copyright sur le fond de la page et avertissent que vous vérifiez le contenu reproduit. Si vous avez multiple les domaines qui se dirigent au même contenu d'emplacement tirent profit de la redirection permanente. (rapport de statut 301)
Ceci informe l'araignée de la redirection ainsi ils comprennent que vous ne mettez pas vers le haut du contenu double. Quand vous avez un article à obtenir republié sur d'autres emplacements envoyez-les dans une mise en forme de texte. (les articles sont une grande manière aux liens entrants de qualité d'ailleurs!) Ceci s'assure que quand l'article est republié il sera restructuré et regardé par les araignées de recherche en tant qu'original.
Je vois qu'il n'est pas utile de vouloir vous en dire d'avantage. Il vous est sans doute nécessaire de prendre un peu de repos. Je vous souhaite le bonsoir.