duplication

Le "Duplicate content"

Les moteurs de recherche filtrent leurs résultats de façon à éliminer les pages "doublons". Lorsque plusieurs pages comportent un contenu identique ou fortement similaire, une seule d'entre elle figure dans les résultats. Ce type de filtre est appelé "Duplicate Content filter".
Accueil > duplicate-content

En bref ... Faut-il avoir peur du Duplicate Content ?

Il est essentiel de comprendre que les moteurs de recherche gèrent le "Duplicate Content" en appliquant un filtre appliqué sur les résultats et qu'ils n'appliquent pas une pénalité au sens habituel de ce terme . La "sandbox", le "blacklistage" ou la perte de "PageRank" ne découlent jamais d'un phénomène de "Duplicate Content", excepté dans un cas bien particulier : lorsque deux pages sont très exactement identiques (lire à ce sujet la page "URL canonique" du site Annuaire-Info)

Les pages qui sont retirées des résultats ne sont pas pour autant désindexées. Elles figurent toujours dans les index des moteurs de recherche et conservent leurs PageRank (sauf dans le cas particulier évoqué ci-dessus). Si une petite portion de leur contenu est originale (cas de pages similaires, mais non identiques) elles figureront toujours dans les résultats de recherche portant sur ce contenu original.

Le filtre "Duplicate Content" s'applique à certaines pages et non pas aux sites qui contiennent ces pages. Les sites comportant des pages dupliquées entre elles ou dupliquées à partir d'autres sites ne sont pénalisés en aucune façon (ou du moins, jamais pour cette unique raison).

Pour éviter le cas le plus fréquent et le plus ennuyeux de "Duplicate Content", retenez que toutes les pages de votre site doivent absolument comporter des balises <Title> et <Description> différentes !

On peut distinguer 3 cas de "Duplicate Content" :

Pages exactement identiques (à l'octet près)

Pages similaires, mais comportant des balises <TITLE> et <DESCRIPTION> différentes

Pages différentes, mais comportant les mêmes balises <TITLE> et <DESCRIPTION>

Cas de sites miroirs. Google considèrera que la page ayant le plus fort PageRank est l'URL canonique. Il désindexera les autres pages et reportera leur PageRank sur la page retenue. Cela ne semble pouvoir se produire que si les pages identiques figurent sur des noms de domaine différents.

Toutes les recherches portant sur le texte commun aux différentes pages donneront comme résultat la page ayant le plus fort PageRank. Les autres pages seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées". Elles figureront également dans les résultats des recherches portant sur leurs contenus originaux (ce qui diffère du texte commun).

Certaines pages peuvent sembler très similaires aux yeux des moteurs de recherche alors qu'elles semblent différentes aux yeux d'un humain. Le fait qu'elles possèdent des balises identiques ne fait qu'aggraver la situation. Elles risquent de subir les mêmes problèmes que les pages similaires de la colonne N°2. Dans le pire des cas, il est même possible que leur contenu ne soit pas indexé.




En détail ...

Rumeurs et questions

Les brevets

Google a déposé 3 brevets en relation avec le Duplicate Content :
- le brevet N° 6615209: "Detecting query-specific duplicate documents"
- le brevet N° 6658423 : "Detecting duplicate and near-duplicate files"
- le brevet N° 7158961 : "Methods and apparatus for estimating similarity"

Yahoo a également déposé 2 brevets sur ce thème :
- le brevet N° 5970497 : "Method for indexing duplicate records of information of a database"
- le brevet N° 6138113 : "Method for identifying near duplicate pages in a hyperlinked database"

Les incompréhensions concernant le fonctionnement du Duplicate Content gênèrent de nombreuses rumeurs et questions auxquelles nous répondons ici :

Pas d'indexationGoogle refuse d'indexer certaines pages de mon site. Suis-je victime du Duplicate Content ? C'est une hypothèse à envisager si les balises <Title> et <Description> du site en question sont toutes identiques. En examinant le contenu de deux pages d'un même site, on peut constater qu'elles présentent inévitablement une certaine similitude puisqu'elles comportent généralement la même en-tête, les mêmes menus et éventuellement les mêmes pieds de pages. Si les pages contiennent peu de texte, la similitude peut être globalement très forte. Pour peu que les balises <Title> et <Description> de ces pages soient les mêmes, il y a de fortes chances pour que les moteurs de recherche les considèrent comme "quasi" identiques et retirent certaines d'entre elles de leurs résultats. Il est impératif d'individualiser ces balises pour chaque page !

Double pénalisationLorsqu'il détecte deux pages identiques à travers le Web, Google pénalise les deux sites concernés.Cette rumeur semble absolument infondée au vu de notre expérience. Si les moteurs de recherche suppriment bien l'une des deux pages des résultats de recherche, ils n'appliquent aucune forme de pénalité à la page qu'ils conservent ou au site contenant celle qu'ils conservent.

désindexationLes pages victimes du "Duplicate Content" sont désindexées par Google.Il ne faut pas confondre "retiré des résultats de recherche" et "désindexées". Dans la plupart des cas, les pages victimes du "Duplicate Content" sont classées en "résultats complémentaires" et ne figurent plus dans les résultats. Mais elles figurent toujours dans l'index et peuvent être consultées en cliquant sur la phrase "relancer la recherche en incluant les pages ignorées" qui figure à la fin des résultats.

Perte de PRLes pages classées en "Duplicate Content" perdent leurs PageRank. Non, Il n'y a en aucun cas, une "perte de PageRank", comme certains semblent le supposer. Si une page avait un PageRank de 4 avant d'être retirée des résultats pour cause de "Duplicate Content", elle conservera son PageRank, même s'il ne lui sert plus à rien sur certaines expressions. La seule exception à cette règle a lieu lorsque 2 pages sont absolument identiques. Il s'agit alors d'un cas d'URL canonique. La perte de PageRank et la disparition complète de l'index peuvent être la conséquence d'une redirection sauvage ou d'une recopie totale de contenu (y compris l'en-tête du site et les balises de la page) mais pas d'une recopie partielle de contenu ! Cela étant dit, vous devez vous rappeler que le PageRank n'est pas (et loin de là !) le seul critère de classement de Google !

Perte de PRLorsqu'il détecte deux pages identiques à travers le Web, Google pénalise l'un des deux sites concernés. Aucune expérience ne semble démontrer cela. Le "Duplicate Content" est géré par un filtre et non par une pénalité. Si les doublons sont bel et bien retirés des résultats de recherche, les sites comportant ces doublons ne sont pas pénalisés d'une autre façon (sauf, dans certains cas, pour la raison ci-dessous).

Perte de PRLes pages classées en "Duplicate Content" / les sites victimes du "Duplicate Content" perdent des positions dans les résultats de recherche. C'est en effet possible (et même probable). Les pages/sites victimes du Duplicate Content verrons en effet une partie de leurs contenus ignorée par Google. Le résultat est inévitablement une perte de pertinence sur tous les mots de ces contenus perdus. Mais ne paniquez pas tout de suite ! Lisez attentivement ce qui suit :

- Si le Duplicate Content est le résultat d'une vraie duplication de contenu (par exemple, lorsque 2 URLs pointent vers la même page, ou lorsque vous avez copié-collé des paragraphes d'une page vers l'autre) ne vous faites aucun soucis : Google ne fait que rectifier le tir en ignorant l'une des copies. Le texte original sera bien pris en compte et votre site sera classé exactement de la même façon que si vous n'aviez pas de "doubles" dans votre contenu. Google évite tout simplement de "surclasser" un site en comptant plusieurs fois le même contenu.

- Si le "Duplicate Content" est provoqué par des balises <Title> et <Description> identiques (ou quasi-identiques), alors votre site est réellement perdant. Il vous faut impérativement remédier à ce problème pour que votre site retrouve le classement qu'il mérite.

identifier l'auteurLorsqu'il détecte deux pages identiques à travers le Web, Google ne conserve pas forcément la page originale. Il peut privilégier le copieur au détriment de l'auteur. Cela est hélas vérifié. Google semble privilégier les pages ayant le plus fort PageRank. Il ne semble pas tenir compte de l'ancienneté des pages ou des liens qu'une page peut avoir vers l'autre. Les sites récents courent donc un risque majeur de se voir voler - avec profit pour le voleur - leurs contenus par des sites plus anciens et mieux référencés. Il est extrêmement regrettable que les liens portant une mention du type "Source de l'article : www.example.com" ne soient pas pris en compte dans la gestion du "Duplicate Content". Ce type de lien indique pourtant, dans bien des cas et d'une façon très claire, qui est l'auteur et qui est l'emprunteur. On peut lire à ce sujet le compte rendu de J.S. Cassidy (en anglais).

Attention toutefois aux contre-exemples : une page retirée des résultats peu très bien y ré-apparaitre si elle bénéficie soudain de backlinks nombreux et de qualité. On peut alors se trouver avec deux (ou plusieurs) pages quasiment identiques dans les résultats. Il semble qu'il y ait une sorte de seuil de popularité au-delà duquel le filtre "Duplicate Content" de Google se désactive tout à fait.

Qui perd gagneN'autorisez jamais personne à recopier vos articles. Cela risquerait de vous faire désindexer pour cause de "Duplicate Content". Bien que ce "conseil" soit juste dans l'absolu, il ne nous semble pas judicieux. Vous pouvez aussi être gagnant dans le fait d'autoriser et d'encourager d'autres sites à copier le contenu de vos articles ! Si chacun de ces sites à la politesse de citer sa source, vous allez gagner de nombreux "backlinks" qui feront grimper votre PageRank. Si votre PageRank devient suffisamment important, vous continuerez de toute façon à figurer dans les résultats des recherches, même si quelques pirates vous pillent ensuite sans vous citer. Cela demande de la confiance, mais cette technique a fait ses preuves.

Site dynamiqueLes sites dynamiques sont plus souvent victimes du "Duplicate content filter" que les autres. Les sites dynamiques mal gérés peuvent comporter des séries de pages ayant les mêmes balises <TITLE> et <DESCRIPTION>, ce qui est clairement une cause de problème. Ils peuvent également proposer de nombreuses pages ayant de fortes similitudes entre elles, ce qui peut évidemment poser problème. Mais si les gestionnaires de site parviennent à éviter ces deux erreurs, il n'y a aucune raison pour que ces sites soient plus sensibles que les autres au filtre gérant le "Duplicate Content". N'oublions que tous ceux qui consultent ce type de site (et notamment les robots) ne voient qu'un ensemble de pages codées en HTML et n'ont aucun moyen fiable de savoir si le site est statique ou dynamique.

Versions imprimablesMon système de site m'a amené à créer plusieurs versions pour chacune de mes pages. Puis-je être pénalisé pour cela ? Il existe plusieurs raisons qui peuvent vous amener à générer plusieurs versions de vos pages. Certains sites créent par exemple des versions "imprimables" de leurs pages, pré-calibrées pour une impression en format A4. Les moteurs de recherche ne retiendront qu'une seuleversion de chaque page. Vous ne serez donc pas pénalisé, mais vous n'aurez pas non plus plusieurs pages de votre site dans les résultats. C'est en grande partie pour éviter une "sur-représentation" de ce type de site que le filtre "Duplicate Content" a été créé.

Choisir la page retenueMon système de site m'a amené à créer plusieurs versions pour chacune de mes pages. Malheureusement, Google ne retient pas la bonne version dans son index. Si vous tenez à ce que Google index l'une des versions plutôt que l'autre, le plus simple et le plus efficace est de placer la balise "noindex" dans toutes les pages que vous ne voulez pas voir indexer. Vous pouvez également utiliser le fichier robots.txt pour obtenir le même résultat.

Réécriture d'URLJ'ai fait de l'URL rewriting pour gérer les URLs de mon site et cela semble avoir provoqué un phénomène de Duplicate Content. Si votre système permet d'accéder à la même page à travers différentes URLs (adresses), il est en effet possible que cela génère un Duplicate Content : du point de vue des moteurs, deux adresses différentes devraient correspondre à deux pages différentes. Cela peut être contourné très facilement en configurant correctement vos redirections (il suffit de spécifier qu'il s'agit d'une redirection de type 301). Lisez à ce sujet notre article concernant les redirections et l'URL rewriting. Dans tous les cas, cela ne devrait pas vous porter préjudice puisque les moteurs indexeront malgré tout vos pages sous l'une des URLs qui permettent d'y accéder.

sites en plusieurs languesJ'ai un site en français qui comporte des articles. Je viens de créer un site en anglais qui comporte des traductions de toutes les pages de mon premier site. Est-ce que je risque d'être victime du Duplicate Content ? Absolument pas. Les moteurs sont encore loin de pouvoir considérer comme "similaires" des pages rédigées dans des langues différentes, même si elles parlent des mêmes sujets.

sites en plusieurs languesPour éviter le Duplicate Content, il faut que les pages présentent au moins 70% de différence.Ce chiffre de 70% est très souvent cité au cours des discussions sur la duplication de contenu. Il semble pourtant qu'il ne repose sur aucune base sérieuse. L'expérimentation que nous avons mené à ce sujet démontre que cette valeur de 70% n'a absolument aucun fondement.

La mise à jour "Panda" de Google en 2011

Le système de classement de Google a subit une forte modification en février 2011. Cette modification baptisée "Panda" a affecté un trés grand nombre de sites comportant du contenu dupliqué depuis d'autres sites. D'abord appliquée uniquement sur les sites de langue anglaise, cette modification s'est progressivement étendue à l'ensemble des sites du Monde entre mars 2011 et juin 2011.

Elle vise essentiellement à pénaliser les "fermes de contenu" et autres "aggrégateurs de contenus" qui obtiennent des revenus publicitaires en captant du traffic grâce à des sites créés de façon automatique dans le seul but de générer du profit. Mais elle pénalise également les comparateurs de prix et les annuaires.

Le système Panda diffère profondément du filtre "Duplicate Content" en ce sens qu'il s'applique au site tout entier.

Le système Panda est un filtre particulièrement sophistiqué qui s'appuie sur plusieurs méthodes d'analyses croisées. Selon certaines déclarations émanant de Google, il tiendrait compte des retours utilisateurs sur la qualité des résultats; Les utilisateurs de Google Chrome peuvent en effet installer une extension qui leur permet de bloquer les sites qu'ils jugent indésirables. En regroupant ces données, Google est à même d'établir une "liste noire" de sites suspects qui seraient plus susceptibles d'être pénalisés par Panda.

Kill Duplicate : l'outil ultime de traitement du contenu dupliqué

A lire également "Duplicate Content et page similaires " : sur le forum WebmasterHub
"Le Duplicate Content, c'est quoi ?" du site Abondance
"L'algorithme Panda" par webrankinfo

Pour arriver en première page de google :

Demandez un devis à l’agence SEO.fr (15 ans d’expérience)