Analítica Web SEO

Cómo detectar el contenido duplicado en un sitio web

El contenido duplicado consiste en disponer en un sitio web de contenido ya publicado con anterioridad. En SEO hablamos de dos tipos de contenido duplicado, el contenido duplicado “in-site” y el contenido duplicado “inter-sites”.

El primero de ellos es aquel contenido que por problemas en el control de edición  del contenido o por errores del CMS o servidor se genera idénticamente más de una vez en el mismo site, alojándose en páginas o URL diferentes. Se trataría entonces del contenido de una página X alojado 1 o n veces en otras páginas diferentes.

Contenido duplicado "in-site"
Contenido duplicado “in-site”

Por otro lado el contenido duplicado “inter-sites” es aquel contenido idéntico en varios sitios web. Es en esencia contenido copiado, contenido sindicado o contenido extraído de bases de datos, publicado en varias páginas de sitios web diferentes. Con la herramienta Copyscape podemos detectar, dada una URL de nuestro site, otros sitios web donde han copiado su contenido.

Contenido duplicado "inter-sites"
Contenido duplicado “inter-sites”

En ambos casos el contenido duplicado es un factor que resta el posicionamiento de un sitio web. Siempre ha sido un factor SEO, pero recientemente ha cobrado más protagonismo en el algoritmo de Google con la última actualización de este buscador: El Google Panda Update.

Al contenido duplicado dentro del propio sitio web se le debe dar un correcto tratamiento SEO puesto que supone disponer de varias URL con el mismo contenido, y esto puede perjudicar el posicionamiento de nuestro site por varias razones, entre ellas:

–          Google encuentra varias URL con el mismo contenido y no sabe discernir cuál de esas URL debe posicionar mejor.

–          Gooogle no quiere “ensuciar” su índice con todas esas URLs.

–          Todas esas URL con el mismo contenido y las mismas palabras clave pueden llevar a pensar a Google que queremos engañarle para que nos posicione mejor porque tenemos varias páginas  sobre un mismo tema o keyword.

–          Esas páginas entran en competencia y canivalización dentro del propio site porque son diferentes URLs sobre la misma keyword.

El contenido duplicado “in-site” no solo se puede producir a nivel del propio contenido textual, también en títulos y meta etiquetas “meta description”, imágenes o vídeos.

En este post me gustaría explicaros algunas técnicas para identificar este contenido duplicado, para después darle un correcto tratamiento SEO.

 

PASO 1 para identificar Contenido Duplicado: Comando site

–          Dominio con y sin www.: Si a tu sitio web se puede acceder con el nombre del dominio por ejemplo http://www.zoiseo.es y http://zoiseo.es tienes un problema de contenido duplicado.

Con el comando site: en Google podemos ver si existen indexadas páginas de ambas versiones del site.

Acompañando este comando de –www podremos extraer las páginas indexadas sin el dominio con www.

Contenido duplicado en un site sin www. en el dominio
Contenido duplicado en un site sin www. en el dominio

El comando –www también nos mostrará subdominios del dominio principal. Es posible que en estos subdominios también podamos encontrar contenido duplicado.

–          Variables  o parámetros dinámicos en la URL: Los parámetros dinámicos en URL pueden ocasionar que algunos elementos de contenido de la página con un parámetro X sean idénticos (por tanto duplicados) en la misma página con parámetro Y

Página web indexada con parámetros dinámicos
Página web indexada con parámetros dinámicos

Podemos detectar si las URL con parámetros están indexadas por Google añadiendo al comando site: inurl:[nombre_del_parámetro]

Detección de páginas indexadas con parámetros dinámicos
Detección de páginas indexadas con parámetros dinámicos

–          Si sospechamos que un contenido concreto lo hemos duplicado podemos comprobar si está indexado en Google con site: y entre comillas poner un extracto del texto en cuestión

Dos páginas con contenido duplicado
Dos páginas con contenido duplicado

Tras esto podemos utilizar esta herramienta de WebConfs para ver el grado de duplicidad de contenido entre dos URL.

PASO 2 para detectar Contenido Duplicado: Google Webmaster Tools

–          Como indicaba antes, para Google los títulos y meta descripciones también son contenido duplicado. Por eso podemos echar mano de esta herramienta para detectar aquellas páginas con este problema.

Identificación de etiquetas duplicadas con Google Webmaster Tools
Identificación de etiquetas duplicadas con Google Webmaster Tools

 

Entrando en detalle podremos encontrar la causa de esta etiquetas duplicadas. En este caso se debe a un parámetro sobre la URL que Google indexa.

Identificación de las URL con títulos y descripciones duplicadas con GWT
Identificación de las URL con títulos y descripciones duplicadas con GWT

 

 

PASO 3 para detectar Contenido Duplicado: Xenu Link Sleuth

–          Esta herramienta que todo especialista SEO debería conocer rastrea un sitio web y nos proporciona, entre otros muchos datos,  información sobre posible URL con títulos duplicados.

Lo aconsejable es descargarse el informe de resultados a una hoja de Excel para poder trabajar mejor. En este caso vemos que existen enlaces a las urls con el parámetro “replytocom” por tanto este programita las rastrea y nos las presenta.

Utilización de Xenu para identificar contenido duplicado
Utilización de Xenu para identificar contenido duplicado

No obstante, esto no quiere decir que tengamos un problema de contenido duplicado, un vistazo a este parámetro a través del comando site: nos demuestra que Google no indexa estas URL.

Comando site: para detectar páginas indexadas
No todas las URL que presenta Xenu están indexadas por Google y por tanto suponen un problema de contenido duplicado

 

PASO 4 para detectar Contenido Duplicado: Google Analytics

–          Después de seleccionar un período bastante amplio de tiempo, nos proponemos ver las páginas de destino del site.

Selección de páginas de destino
Selección de páginas de destino

–          Después seleccionamos que deseamos mostrar el título de la página. Una vez hecho esto, ordenamos los títulos de las páginas alfabéticamente.

Selección de títulos de las páginas de destino
Selección de títulos de las páginas de destino

–          Incluimos una dimensión secundaria: La página de destino, para poder ver la URL a la que hace referencia cada título de página.

Dimensión secundaria: página de destino para obtener la URL
Dimensión secundaria: página de destino para obtener la URL

 

–          Mostramos el máximo posible de filas (500). Después nos vamos a la URL de Google Analytics y cambiamos el 500 de “explorer-table.rowCount%3D500%” por el número de filas que nos interese mostrar, por ejemplo 1000.

–          Ahora que tenemos un buen número de filas sobre las que trabajar, exportamos a una hoja de Excel CSV los datos para poder filtrar más cómodamente en Excel y detectar los títulos duplicados.

Detección de títulos o páginas con contenido duplicado a través de Google Analytics
Detección de títulos o páginas con contenido duplicado a través de Google Analytics

Espero que os hayan resultado útiles estos consejos. En este post explico las formas de tratamiento para solucionar el contenido duplicado.

 

 

¿Qué otras técnicas para detectar contenido duplicado utilizas? ¿Con qué problemas te enfrentas en la gestión del contenido duplicado del site? ¿Te animas a opinar?

Si te ha interesado este tema. Te propongo estos consejos para diseñar tu estrategia de contenidos web.

16 comments

  1. Buen artículo.
    Sólo decir que el comando “site” no siempre nos muestra lo que está indexado (en ocasiones no muestra páginas que sí están indexadas y que reciben tráfico orgánico según Analytics). Este comando sólo se puede tomar como representativo.

    Sobre el Paso 4 (con Analytics) un gran aporte, nunca había caído en hacerlo así. Lo acabo de poner en práctica y he encontrado cosas interesantes. Gracias

  2. Hola Zoilo,

    Muy bueno el post, muchas gracias 😀

    Añadiría una herramienta que para webs pequeñas funciona muy bien y es gratuita (creo que hasta 500 url’s) y se llama Screaming Frog SEO Spider. Matizar que no detecta contenido duplicado pero es muy útil para detectar h1, h2, tiltes, descriptions… incluso como comentaba antes Jorge las url’s que utilizan

  3. Buenas Aram! No he probado la herramienta que mencionas, pero parecida, microsoft IEEE, sin ningún límite y gratuita.

    Saludos!!

  4. Es realmente un problema que las personas copien descaradamente los contenidos de otras web y que logren aun así buen posicionamiento. A veces al buscar un tema encuentras tres o cuatro paginas con el mismo contenido y eso es una gran perdida de tiempo para el usuario. Hay formas de evitar esto, en mi caso Blekko es una de las herramientas para detectar este tipo de contenido duplicado.

    1. Bueno, aquí entramos en temas que tienen mucho que ver con la propiedad intelectual o la propiedad industrial, licencias para el uso del contenido, etc.
      Ciñéndonos estrictamente al SEO, si tu sitio web ha sido el primero en publicar el contenido y google así lo reconoce porque en su índice consta que indexó ese contenido en tu site antes que en ningún otro, normalmente no hay nada que temer, pues en general (aunque no es la norma y entran en juego otros factores), tu sitio web deberá aparecer primero para las keywords principales a las que hace referencia.

      En definitiva, los buscadores se depuran cada vez más, la actualización Panda de Google buscaba premiar el contenido original sobre las copias, entre otras cosas.

      Un saludo,

  5. Joder, que post mas bueno, te has salido porque esque me estaba volviendo loco con este tema y gracias a ti y a tu gran aporte me has ayudado mucho a saber como detectar los contenidos duplicados. GRACIAS!

  6. Excelente explicación.
    Sí cabe mencionar que plataformas como WordPress y demás CMS´s generan contenido duplicado -en cuanto a páginas y description-. Y si por alguna razón llegamos a tener que optimizar un site de más de 5000 páginas se vuelve un infierno agregar canonicals o mismo evitar la duplicación-.

  7. Ei Zoilo,
    Rescato este post tuyo para ver como atajo este problema.
    Tengo una tienda, y varios productos que son practicamente iguales. Por ejemplo, un proveedor me da un pantalon levis 501 por 50€ , y el proveedor B me da el mismo pantalon por 50€. Mi CMS saca el mismo producto salvo el “id”. Tengo 2 url’s exactamente iguales.

    He conseguido modificar el CMS para que cambie la URL añadiendo el proveedor, pero claro.. el texto es exactamente el mismo. Y no puedo poner un canonical porque perjudicaria a uno de los proveedores.

    Que deberia de hacer para mitigar esto?

    Gracias

    1. Hola Fermín. La verdad es que no es una respuesta fácil, sobre todo con tan poca información. El problema por lo que creo entender no es las urls, sino que consigues unas urls diferentes para un producto idéntico, mismo precio, etc. Se me ocurre que primes un proveedor sobre otro en tu estrategia en buscadores, y que añadas un canonical a la url del producto preferida. Otra solución, más costosa pero sin duda más beneficiosa a largo plazo es que que te centres en crear landing pages de producto muy enriquecidas con textos diferenciados para cada proveedor. Otra solución es que integres en una misma url los datos de varios proveedores, y por supuesto enriquezcas esa landing page con texto indexable.
      Un saludo.

  8. Buenas tardes,

    Desde hace varios días tengo el siguiente problema que espero me ayude a solucionar:

    Eliminé el contenido de una página por completo pero dicho contenido sigue apareciendo en los resultados de búsqueda de Google aunque ya he accedido a https://www.google.com/webmasters/tools/removals?hl=es para eliminar la página en cuestión y Google me confirma que ha sido eliminada.

    Por lo que he podido interpretar, el problema está en que el contenido de la página antigua sigue en la caché de Google.

    Mi pregunta es la siguiente: Si ahora cuelgo la nueva página (que es la misma que la anterior pero en otro dominio), ¿interpretará Google que es contenido copiado?

    Muchas gracias por su ayuda de antemano.

    1. Hola Marc. Qué duda cabe que Google tiene información histórica sobre ese contenido que te propones colocar en otro dominio. No será estrictamente contenido duplicado actualmente porque no existen copias en el índice de Google, pero este buscador tiene memoria y seguramente esto limitará de alguna manera el posicionamiento de tu nuevo site.
      La próxima vez, realiza una migración coherente, haciendo uso de redirecciones 301.
      Un saludo,

Leave a Reply

Your email address will not be published. Required fields are marked *