Las rañas de motores de búsqueda rastrean los sitios web conforme a las directrices del archivo robots.txt y la metaetiqueta robots a nivel de página

No confundas el fichero Robots.txt con la etiqueta robots

Tiempo de lectura estimado: 7 minutos

El fichero robots.txt y la etiqueta robots son dos elementos muy importantes a tener en cuenta por cualquier consultor SEO en la estrategia de rastreo e indexación de un sitio web por los motores de búsqueda. Sin embargo, sus funciones son muy diferentes y, en ocasiones, un mal uso de estas, puede provocar problemas en la indexación.

Hoy te quiero presentar un caso muy particular que me gusta comentar a mis alumnos en las aulas cuando les hablo de cómo rastrean e indexan los motores de búsqueda del sitio web. Pero antes, vamos a abordar qué son exactamente el robots.txt y la etiqueta robots, y para qué podemos utilizarlas. ¿Me acompañas?

¿Qué es el robots.txt?

El Robots.txt es un archivo de texto utilizado por los sitios web para comunicarse con los rastreadores web (también llamadas arañas o bots) de los motores de búsqueda. Este archivo contiene directivas que indican a los rastreadores qué partes del sitio pueden o no ser procesadas o rastreadas. Se encuentra en el directorio raíz del sitio web y es accesible generalmente en una URL del tipo:

https://midominio.com/robots.txt

El archivo robots.txt ayuda a los webmasters del sitio restringir el acceso de los rastreadores a ciertas áreas. Puede resultar útil para evitar que pierdan tiempo de rastreo en analizar ficheros que no necesitan rastrear para comprender el contenido, imágenes, funcionalidades y distribución de una página. También se puede utilizar para prevenir la sobrecarga del servidor por el rastreo.

Formato y directrices del robots.txt

El archivo robots.txt tiene un formato muy sencillo, basta especificar a qué agente de usuario (user-agent) se le aplica cada conjunto de directivas. Las directivas más comunes incluyen:

  • User-agent: Define el o los rastreadores a los que se aplican las directivas siguientes. Un asterisco (*) se usa para referirse a todos los rastreadores. También se puede hacer referencia a un bot específico. El de Google, por ejemplo, se llama googlebot.
  • Disallow: Indica a las arañas qué páginas o secciones del sitio no deben rastrear. Por ejemplo, Disallow: /privado/ previene el rastreo de la sección /privado/ del sitio.
  • Allow: Utilizado para permitir explícitamente el rastreo de partes de un sitio que están dentro de una sección restringida por una directiva Disallow. Esta directiva es primordialmente usada por el rastreador de Google, pero no necesariamente es reconocida por todos los rastreadores.

En el mismo archivo robots.txt se puede indicar la ubicación del archivo sitemap.xml, ayudando a los motores de búsqueda a descubrir las páginas del sitio de modo más eficiente.

Podemos modificar el fichero robots.txt en cualquier momento y solicitar a Google un nuevo rastreo desde Google Search Console.

Puedes ver más información acerca del uso, creación y actualización del fichero robots.txt en el Centro de Búsqueda de Google.

En Internet se pueden encontrar multitud de herramientas gratuitas que permiten generar un robots.txt, pero no están exentas de requerir un conocimiento por parte del webmaster para indicar qué directorios se quieren permitir o no su rastreo.

¿Qué es la etiqueta robots?

La etiqueta robots es una metaetiqueta HTML que se utiliza para dar instrucciones a las arañas de los buscadores sobre cómo deben tratar una página web concreta. Esta etiqueta se coloca en la sección <head> de la página HTML y puede especificar una amplia variedad de directivas para controlar el rastreo y la indexación.

La función principal de esta etiqueta es comunicar a los motores de búsqueda si una página debe ser indexada, si los enlaces de la página deben ser seguidos, entre otras instrucciones. Básicamente, permite a los webmaster indicar a las arañas de los motores de búsqueda cómo deben ser tratadas páginas individuales de la web.

Directivas de la etiqueta robots

Las directivas más comunes que pueden leerse en la etiqueta robots son:

  • index / noindex: Indica a los motores de búsqueda si la página debe ser indexada (index) o no (noindex)para que la página sea incluida en los índices de los motores de búsqueda.
  • follow / nofollow: Indica a los motores de búsqueda que deben seguir los enlaces en la página (follow) o no (nofollow).
  • noarchive: indica a los motores de búsqueda que no guarden una copia caché de la página.
  • nosnippet: Impide que el motor de búsqueda muestre un fragmento (snippet) de la página, como una descripción o una vista previa, en los resultados de búsqueda.
  • noimageindex: Evita que la página sea utilizada como la página de referencia para las imágenes en los resultados de búsqueda.

Tras definir el archivo robots.txt y la etiqueta robots ya podemos observar algunas diferencias claras en su uso. Mientras que robots.txt previene que los motores de búsqueda rastreen contenido especificado, la etiqueta robots controla tanto el rastreo como la indexación a nivel de página individual.

No cometas este error al usar robots.txt

Vamos con el ejercicio que propongo a mis alumnos de SEO cuando hablo del rastreo e indexación de los motores de búsqueda.

Dado el sitio web midominio.com, se puede ver en el archivo https://midominio.com/robots.txt

User-agent:*

Disallow: /pagina-ejemplo/

Y al analizar el html de la URL https://midominio.com/pagina-ejemplo/ se observa una meta eitqueta robots con el siguiente contenido:

<meta name=“robots” rel=“noindex,nofollow” />

Si desde https://otrodominio.com/blog/post/ se enlaza a https://midominio.com/pagina-ejemplo/… ¿Indexarán los motores de búsqueda esta URL?

¿Indexará Google una URL con meta robots a noindex si en el robots.txt se ha bloqueado el rastreo de dicha página?

La respuesta es que, efectivamente, sí indexará la URL. Vamos a ver las 2 posibilidades de razonamiento y a justificar la respuesta.

Razonamiento incorrecto: la página no se indexa

Podríamos pensar que como el archivo robots.txt tiene un Disallow a /pagina-ejemplo/ se está solicitando a todos los rastreadores de motores de búsqueda (User-agent: *) que no rastreen (Disallow) la página en cuestión (/pagina-ejemplo/) y, por tanto, no la encontrarán.

En este punto es importante recordar que la directriz Disallow en robots.txt previene el rastreo de la página, pero no necesariamente su indexación.

Por ello, podríamos llegar a pensar que si una página no debe ser rastreada, los motores de búsqueda pueden indexarla si encuentran enlaces hacia ella desde otras páginas que sí pueden rastrear, aunque no tengan directamente el contenido de la página bloqueada para revisarlo.

Además, la URL indicada tiene una metaetiqueta específica que dice:

<meta name=“robots” rel=“noindex,nofollow” />

Esta etiqueta le dice a los motores de búsqueda que no indexen la página (noindex) y que no sigan los enlaces en esa página (nofollow). A diferencia de las directivas en robots.txt, la directiva noindex en la meta etiqueta efectivamente debería prevenir que la página sea indexada cuando los rastreadores obedecen esta directiva.

Por último, había un enlace procedente de un dominio externo que apuntaba a la URL cuyo rastreo estaba bloqueado por robots.txt y su indexación según la metaetiqueta robots no debería producirse.  Podríamos pensar, por ello, que la presencia de un enlace entrante a una página aumenta la posibilidad de que los motores de búsqueda descubran dicha URL. Pero en el ejemplo que nos ocupa, al segurila se encuentran con la directiva noindex y, por tanto, la página no debería ser añadida a su índice

Razonamiento correcto: la página se indexa

Cuando el archivo robots.txt de un sitio web utiliza la directiva Disallow para bloquear el rastreo de una página, pero esa página recibe enlaces desde otros sitios, los motores de búsqueda no pueden rastrear el contenido de la página debido al bloqueo en robots.txt, siendo conscientes de la existencia de dicha página por los enlaces entrantes.

En este caso los motores de búsqueda pueden decidir indexar la URL de la página por no leer la metaetiqueta robots, ya que el robots.txt bloquea el rastreo de la página y los motores de búsqueda no pueden descubrir y obedecer la metaetiqueta robots con la directiva a noindex, ya que esta directiva se encuentra en el contenido de la página, cuyo rastreo ha sido bloqueado.

Moraleja: emplea correctamente la metaetiqueta robots y el robots.txt

Para controlar con precisión el rastreo e indexación, así como el seguimiento de enlaces en una página, es crucial considerar cómo se utilizan robots.txt y las metaetiquetas robots en conjunto, y ser conscientes de sus implicaciones.

Recuerda, no es recomendable utilizar el archivo robots.txt para bloquear el acceso a páginas específicas porque no se evitará con ello su indexación, sino su rastreo. En caso de no querer indexar o no querer permitir el seguimiento de enlaces en una página es conveniente utilizar la metaetiqueta robots a nivel de página.