¿Qué es el contenido duplicado y cómo solucionarlo?

Tiempo de lectura estimado: 8 minutos

El contenido duplicado es uno de los problemás más comunes al que nos enfrentamos los profesionales del SEO al auditar un sitio web. No siempre es fácil de detectar, en ocasiones se produce contenido duplicado por desconocimiento del webmaster, que no tiene por qué saber de Posicionamiento Orgánico, y otras, simplemente, por la confianza depositada en que un plugin no puede hacer las cosas mal… como a veces pasa. Pero, ¿qué es contenido duplicado? ¿cómo podemos detectar si nuestra web adolece de duplicidad entre páginas? y sobre todo, ¿qué soluciones técnicas podemos aportar para solucionar los errores de contenido duplicado?

¿Qué es contenido duplicado?

El contenido duplicado en SEO sucede cuando dos o más páginas presentan contenido idéntico o notablemente similares. Imagina que tienes dos o más páginas web distintas que muestran el mismo artículo o publicación; esto es lo que consideramos contenido duplicado.

Los motores de búsqueda, como Google, buscan ofrecer a los usuarios la mejor experiencia de búsqueda. Si en tiempo de rastreo encuentran una página con contenido total o parcialmente similar al contenido de otra página del mismo sitio web que ya tenía indexado descartará añadir la nueva página detectada al índice de contenidos que ofrecer como respuesta.

Además, el contenido duplicado puede diluir la autoridad de tu contenido original, ya que los enlaces entrantes (importantes para generar autoridad y mejorar la clasificación en los motores de búsqueda) pueden distribuirse entre múltiples versiones duplicadas en lugar de concentrarse en mejorar la posición de tu publicación original.

Principales errores de contenido duplicado

Algunos de los errores más comunes que pueden provocar contenido duplicado son:

  • Versiones www y -www: Si un sitio web es accesible tanto por la versión www como sin el subdominio www, sin una redirección adecuada, los motores de búsqueda pueden interpretarlo como contenido duplicado. Así, por ejemplo, si se detectaran las versiones https://www.ejemplo.com como por https://ejemplo.com (sin el «www»), posiblemente incurriríamos en un grave problema de duplicidad de contenido.
  • Protocolos HTTP y HTTPS: Similar al caso anterior, si tu sitio está disponible tanto en versiones con protocolos HTTP como HTTPS sin redirecciones 301, se puede considerar contenido duplicado.
  • URLs con y sin barra final: Aunque tradicionalmente la / al final de una URL se utilizaba para indicar un directorio en un servidor web, actualmente tiene más valor por la consistencia de la URL, empleándose o no como patrón en la generación de URLs. Si, por ejemplo, coexistieran la página con URL https://ejemplo.com/pagina y https://ejemplo.com/pagina/ (con y sin la barra al final) muestran el mismo contenido sin redirigir correctamente, eso puede ser detectado como contenido duplicado.
  • Parámetros de URL: Las URLs que utilizan parámetros dinámicos (como las etiquetas UTM que podemos crear con el generador de URLs con que se miden, por ejemplo, las campañas de tráfico a la web por Redes Sociales) pueden crear múltiples URLs que apuntan al mismo contenido. Por ejemplo, si para la URL https://ejemplo.com/product/producto-ejemplo/ creamos la campaña contenido duplicado para facebook y lo etiquetamos por el canal Paid Social generando la siguiente URL https://ejemplo.com/product/producto-ejemplo/?utm_source=facebook&utm_medium=social-paid&utm_campaign=contenido-duplicado ambas páginas mostrarán el mismo producto, lo cual puede interpretarse como contenido duplicado.
  • Contenido idéntico en varias páginas: Publicar el mismo contenido textual (o muy similar) en múltiples páginas internas de tu sitio web. Esta práctica, ya extinta desde que Google lanzara Google Panda, puede seguir siendo detectada en algunas páginas por desconocimiento del webmaster.
  • Versiones de idioma: Si ofreces traducciones de tu sitio pero no utilizas adecuadamente etiquetas hreflang, Google puede no entender que son versiones lingüísticas del mismo contenido y considerarlo duplicado.
  • Sindicación de contenido: Publicar contenido de tu sitio en otros sitios (o viceversa) sin las medidas apropiadas, como un enlace canónico, puede resultar en contenido duplicado.
  • Títulos duplicados: Aunque dos páginas con el mismo título no necesariamente significan que el contenido dentro de ellas sea duplicado, podría ser una señal de alerta para Google de que hay contenido duplicado.
  • Paginación inadecuada: En relación con el punto anterior, sitios web que presentan un listado de productos o artículos de forma paginada pueden incurrir en contenido duplicado porque las páginas siguientes ofrecen el mismo título.

¿Cómo detectar contenido duplicado?

Ya hemos visto que los motores de búsqueda pueden considerar dos páginas duplicadas por motivos muy diversos y es por ello que podemos detectar el contenido duplicado con diferentes herramientas. Algunas de las más populares son:

Copyscape: Esta herramienta online que busca copias de su contenido en Internet con solo introducir una URL. Copyscape ofrece una versión gratuita que es útil para comprobaciones rápidas, o una versión premium que ofrece un servicio más detallado y la posibilidad de realizar un seguimiento automático. Para usarla, basta con ingresa la URL de tu página y la herramienta mostrará si existe contenido igual o muy similar en otro lugar de Internet.

Siteliner: Específica para buscar contenido duplicado dentro de un mismo sitio web. Siteliner escanea tu sitio y te da un porcentaje de contenido duplicado, así como páginas individuales afectadas ingresa la URL de tu sitio y déjalo realizar el escaneo. Analiza los resultados para identificar y corregir el contenido duplicado interno.

Screaming Frog SEO Spider: Screaming Frog es un software de escritorio permite hacer un crawling (rastreo) de tu sitio web similar a cómo lo haría un motor de búsqueda. Identifica problemas SEO incluyendo contenido duplicado. En los resultados, busca la sección de “Duplicate Content” para análisis.

Sistrix: La funcionalidad Optimizer de Sistrix también es una buena herramienta para detectar el content-duplicated, con sólo rastrear un dominio la herramienta mostrará las URLs detectadas con contenido duplicado.

Google Search Console: Sin duda Search Console es la herramienta es la más fiable para detectar contenido duplicado. En el apartado de Indexación de páginas podemos encontrar las páginas que Google no ha indexado por considerar duplicadas. Como he dicho, es para mí la fuente más fiable ya que es la única fuente capaz de determinar si una página es duplicada de otra, pues cuenta con información global a diferencia de las anteriores (incluye el rastreo de las páginas que conforman la web, contendios de otras páginas de sitios, consideraciones de si dos títulos de página idénticos compiten a la misma consulta de búsqueda…).

Google Search Console puede ofrecer algo más de información acerca de los motivos que llevaron a considerar contenido duplicado una URL:

  • Duplicada: el usuario no ha indicado una versión canónica.
  • Duplicada: Google ha elegido una versión canónica diferente a la del usuario.
  • Página alternativa con etiqueta canónica adecuada.

Haciendo clic en cada una de las URLs puede detectar, en cada caso:

  • Qué URL ha escogido como canonical cuando el usuario no indicó esta etiqueta.
  • Qué URL ha escogido como alternativa a la canónica escogida por el webmaster.
  • Qué URL tiene la etiqueta canónical escogida por el webmaster y validada por Google.

¿Cómo solucionar los problemas de contenido duplicado?

A estas alturas ya habrás adivinado la importancia de la etiqueta canonical. Esta etiqueta se utiliza para indicar a los motores de búsqueda cuál es la versión preferida de una página web, ayudando a prevenir problemas de contenido duplicado al especificar la versión que deseas que se indexe.

Si existen varias páginas similares o duplicadas, podemos considerar unificar el contenido en una sola página (la URL indexada), redireccionando las páginas duplicadas a la nueva con un redireccionamiento 301. Esta opción no solo corregirá los problemas de contenido duplicado. También puede ayudar a consolidar la autoridad de enlaces en una sola página.

En caso de detectar dos páginas con el mismo título (un error que sucede, a menudo, cuando se crean las páginas sin conocimiento en SEO, porque se tiende a replicar URLs ya creadas) bastaría con cambiar el título en la página que no haya sido indexada (probablemente se encuentre en la sección de rastreada, actualmente sin indexar de los informes de indexación de Google Search Console) y solicitar a Google el rastreo de la URL para indicarle que ha habido cambios en la página. No obstante, es conveniente asegurarse que no compiten ambas páginas a las mismas consultas de búsqueda.

¿Qué más formas de corrección de contenido duplicado sugieres?