Tiempo de lectura estimado: 7 minutos
El fichero robots.txt y la etiqueta robots son dos elementos muy importantes a tener en cuenta por cualquier consultor SEO en la estrategia de rastreo e indexación de un sitio web por los motores de búsqueda. Sin embargo, sus funciones son muy diferentes y, en ocasiones, un mal uso de estas, puede provocar problemas en la indexación.
Hoy te quiero presentar un caso muy particular que me gusta comentar a mis alumnos en las aulas cuando les hablo de cómo rastrean e indexan los motores de búsqueda del sitio web. Pero antes, vamos a abordar qué son exactamente el robots.txt y la etiqueta robots, y para qué podemos utilizarlas. ¿Me acompañas?
¿Qué es el robots.txt?
El Robots.txt es un archivo de texto utilizado por los sitios web para comunicarse con los rastreadores web (también llamadas arañas o bots) de los motores de búsqueda. Este archivo contiene directivas que indican a los rastreadores qué partes del sitio pueden o no ser procesadas o rastreadas. Se encuentra en el directorio raíz del sitio web y es accesible generalmente en una URL del tipo:
https://midominio.com/robots.txt
El archivo robots.txt ayuda a los webmasters del sitio restringir el acceso de los rastreadores a ciertas áreas. Puede resultar útil para evitar que pierdan tiempo de rastreo en analizar ficheros que no necesitan rastrear para comprender el contenido, imágenes, funcionalidades y distribución de una página. También se puede utilizar para prevenir la sobrecarga del servidor por el rastreo.
Necesito ayuda con mi web
Formato y directrices del robots.txt
El archivo robots.txt
tiene un formato muy sencillo, basta especificar a qué agente de usuario (user-agent) se le aplica cada conjunto de directivas. Las directivas más comunes incluyen:
- User-agent: Define el o los rastreadores a los que se aplican las directivas siguientes. Un asterisco (
*
) se usa para referirse a todos los rastreadores. También se puede hacer referencia a un bot específico. El de Google, por ejemplo, se llama googlebot. - Disallow: Indica a las arañas qué páginas o secciones del sitio no deben rastrear. Por ejemplo,
Disallow: /privado/
previene el rastreo de la sección/privado/
del sitio. - Allow: Utilizado para permitir explícitamente el rastreo de partes de un sitio que están dentro de una sección restringida por una directiva
Disallow
. Esta directiva es primordialmente usada por el rastreador de Google, pero no necesariamente es reconocida por todos los rastreadores.
En el mismo archivo robots.txt se puede indicar la ubicación del archivo sitemap.xml
, ayudando a los motores de búsqueda a descubrir las páginas del sitio de modo más eficiente.
Podemos modificar el fichero robots.txt en cualquier momento y solicitar a Google un nuevo rastreo desde Google Search Console.
Puedes ver más información acerca del uso, creación y actualización del fichero robots.txt en el Centro de Búsqueda de Google.
En Internet se pueden encontrar multitud de herramientas gratuitas que permiten generar un robots.txt, pero no están exentas de requerir un conocimiento por parte del webmaster para indicar qué directorios se quieren permitir o no su rastreo.
¿Qué es la etiqueta robots?
La etiqueta robots
es una metaetiqueta HTML que se utiliza para dar instrucciones a las arañas de los buscadores sobre cómo deben tratar una página web concreta. Esta etiqueta se coloca en la sección <head>
de la página HTML y puede especificar una amplia variedad de directivas para controlar el rastreo y la indexación.
La función principal de esta etiqueta es comunicar a los motores de búsqueda si una página debe ser indexada, si los enlaces de la página deben ser seguidos, entre otras instrucciones. Básicamente, permite a los webmaster indicar a las arañas de los motores de búsqueda cómo deben ser tratadas páginas individuales de la web.
Directivas de la etiqueta robots
Las directivas más comunes que pueden leerse en la etiqueta robots son:
index
/noindex
: Indica a los motores de búsqueda si la página debe ser indexada (index) o no (noindex)
para que la página sea incluida en los índices de los motores de búsqueda.follow
/nofollow
: Indica a los motores de búsqueda que deben seguir los enlaces en la página (follow) o no (nofollow).noarchive
: indica a los motores de búsqueda que no guarden una copia caché de la página.nosnippet
: Impide que el motor de búsqueda muestre un fragmento (snippet) de la página, como una descripción o una vista previa, en los resultados de búsqueda.noimageindex
: Evita que la página sea utilizada como la página de referencia para las imágenes en los resultados de búsqueda.
Tras definir el archivo robots.txt y la etiqueta robots ya podemos observar algunas diferencias claras en su uso. Mientras que robots.txt
previene que los motores de búsqueda rastreen contenido especificado, la etiqueta robots
controla tanto el rastreo como la indexación a nivel de página individual.
Necesito ayuda con mi web
No cometas este error al usar robots.txt
Vamos con el ejercicio que propongo a mis alumnos de SEO cuando hablo del rastreo e indexación de los motores de búsqueda.
Dado el sitio web midominio.com, se puede ver en el archivo https://midominio.com/robots.txt
User-agent:*
…
Disallow: /pagina-ejemplo/
Y al analizar el html de la URL https://midominio.com/pagina-ejemplo/ se observa una meta eitqueta robots con el siguiente contenido:
<meta name=“robots” rel=“noindex,nofollow” />
Si desde https://otrodominio.com/blog/post/ se enlaza a https://midominio.com/pagina-ejemplo/… ¿Indexarán los motores de búsqueda esta URL?
La respuesta es que, efectivamente, sí indexará la URL. Vamos a ver las 2 posibilidades de razonamiento y a justificar la respuesta.
Razonamiento incorrecto: la página no se indexa
Podríamos pensar que como el archivo robots.txt
tiene un Disallow a /pagina-ejemplo/ se está solicitando a todos los rastreadores de motores de búsqueda (User-agent: *
) que no rastreen (Disallow
) la página en cuestión (/pagina-ejemplo/
) y, por tanto, no la encontrarán.
En este punto es importante recordar que la directriz Disallow
en robots.txt
previene el rastreo de la página, pero no necesariamente su indexación.
Por ello, podríamos llegar a pensar que si una página no debe ser rastreada, los motores de búsqueda pueden indexarla si encuentran enlaces hacia ella desde otras páginas que sí pueden rastrear, aunque no tengan directamente el contenido de la página bloqueada para revisarlo.
Además, la URL indicada tiene una metaetiqueta específica que dice:
<meta name=“robots” rel=“noindex,nofollow” />
Esta etiqueta le dice a los motores de búsqueda que no indexen la página (noindex
) y que no sigan los enlaces en esa página (nofollow
). A diferencia de las directivas en robots.txt
, la directiva noindex
en la meta etiqueta efectivamente debería prevenir que la página sea indexada cuando los rastreadores obedecen esta directiva.
Por último, había un enlace procedente de un dominio externo que apuntaba a la URL cuyo rastreo estaba bloqueado por robots.txt y su indexación según la metaetiqueta robots no debería producirse. Podríamos pensar, por ello, que la presencia de un enlace entrante a una página aumenta la posibilidad de que los motores de búsqueda descubran dicha URL. Pero en el ejemplo que nos ocupa, al segurila se encuentran con la directiva noindex
y, por tanto, la página no debería ser añadida a su índice
Razonamiento correcto: la página se indexa
Cuando el archivo robots.txt
de un sitio web utiliza la directiva Disallow
para bloquear el rastreo de una página, pero esa página recibe enlaces desde otros sitios, los motores de búsqueda no pueden rastrear el contenido de la página debido al bloqueo en robots.txt
, siendo conscientes de la existencia de dicha página por los enlaces entrantes.
En este caso los motores de búsqueda pueden decidir indexar la URL de la página por no leer la metaetiqueta robots, ya que el robots.txt bloquea el rastreo de la página y los motores de búsqueda no pueden descubrir y obedecer la metaetiqueta robots con la directiva a noindex, ya que esta directiva se encuentra en el contenido de la página, cuyo rastreo ha sido bloqueado.
Necesito ayuda con mi web
Moraleja: emplea correctamente la metaetiqueta robots y el robots.txt
Para controlar con precisión el rastreo e indexación, así como el seguimiento de enlaces en una página, es crucial considerar cómo se utilizan robots.txt
y las metaetiquetas robots
en conjunto, y ser conscientes de sus implicaciones.
Recuerda, no es recomendable utilizar el archivo robots.txt para bloquear el acceso a páginas específicas porque no se evitará con ello su indexación, sino su rastreo. En caso de no querer indexar o no querer permitir el seguimiento de enlaces en una página es conveniente utilizar la metaetiqueta robots a nivel de página.