¿Alguna vez te has preguntado cómo sabe cualquier motor de búsqueda?

Un archivo robots.txt es un medio que permite comunicarte con los robots que rastrean tu sitio web. Aunque informar a los robots de Google sobre lo que debe analizarse en una página puede ser beneficioso, hacerlo correctamente requiere aprender el lenguaje que es comprensible para los rastreadores web. ¡Descubre más en este artículo!

Todo el que crea un sitio web quiere ser visible en Internet. Por eso, cada vez más personas deciden realizar actividades de SEO que se ajusten a las directrices de Google para garantizar que sus sitios aparezcan en las primeras posiciones de los resultados de búsqueda orgánica. Una de las primeras preguntas que probablemente te viene a la mente es ¿cómo sabe Google o cualquier otro motor de búsqueda lo que se publica en una página determinada? Bueno, los llamados rastreadores web  revisan los interminables recursos del mundo online y analizan el contenido de todos los sitios web encontrados. Vale la pena asegurarse de que una vez que los robots entran en tu sitio, se les informa qué páginas se supone que deben ser rastreadas ya que ciertas subpáginas no tienen, o incluso no deben, mostrarse en los resultados de búsqueda.

UNIRME AL GRUPO DE TELEGRAM

¿Qué son los Robots.txt?

El archivo robots.txt es uno de los elementos utilizados para la comunicación con los rastreadores web. Los robots buscan este archivo en particular justo después de entrar en un sitio web. Consiste en una combinación de comandos que cumplen con el estándar del Protocolo de Exclusión de Robots, un «lenguaje» que entienden los robots. Gracias a él, los propietarios de los sitios web pueden navegar los robots y limitar su acceso a recursos como gráficos, estilos, scripts o subpáginas específicas del sitio que no necesitan mostrarse en los resultados de la búsqueda.

Elementos que no deben ser rastreados

Hace años que los sitios web dejaron de ser simples archivos que no contienen nada más que textos. La mayoría de las tiendas online incluyen numerosas subpáginas que no tienen valor en cuanto a los resultados de la búsqueda o que incluso conducen a la creación de contenido duplicado interno.

Los robots no deberían tener acceso a elementos como carros de compra, motores de búsqueda internos, procedimientos de pedido o paneles de usuario. ¿Por qué? Debido a que el diseño de estos elementos no sólo puede causar confusión innecesaria, sino que también puede afectar negativamente a la visibilidad del sitio en las SERP. También deberías considerar el bloqueo de las copias de subpáginas hechas por los CMS ya que pueden aumentar tu contenido duplicado interno.

¡Ten cuidado!

La creación de reglas que te permitan navegar por los rastreadores web requiere un perfecto conocimiento de la estructura del sitio web. El uso de un comando incorrecto puede impedir que los robots de Google accedan a todo el contenido del sitio web o a sus partes importantes. Esto, a su vez, puede tener efectos contraproducentes: tu sitio puede desaparecer completamente de los resultados de búsqueda.

Los archivos Robots.txt son sólo recomendaciones

Los rastreadores web pueden decidir seguir tus sugerencias, sin embargo, por muchas razones no se les puede obligar a observar ningún comando colocado en el protocolo de comunicación mencionado. En primer lugar, Googlebot no es el único robot que escanea sitios web. Aunque los creadores del principal motor de búsqueda del mundo se aseguran de que sus rastreadores respeten las recomendaciones de los propietarios de los sitios web, otros robots no son necesariamente tan útiles. Además, una URL determinada también puede ser rastreada cuando otro sitio web indexado se vincula a ella. Dependiendo de tus necesidades, hay varias maneras de protegerse de tal situación. Por ejemplo, puedes aplicar la metaetiqueta «noindex» o el encabezado HTTP «X-Robots-Tag». También es posible proteger los datos personales con una contraseña, ya que los rastreadores web no son capaces de descifrarla. En el caso del archivo robots.txt, no es necesario borrar los datos del índice del buscador, basta con ocultarlos.

Generadores de Robots.txt: ¿Cómo crear el archivo?

En Internet abundan los generadores de robots.txt y muy a menudo los CMS están equipados con mecanismos especiales que facilitan a los usuarios la creación de tales archivos. Las posibilidades de que tengas que preparar instrucciones manualmente son bastante reducidas. Sin embargo, vale la pena aprender las estructuras básicas del protocolo, es decir, las reglas y comandos que se pueden dar a los rastreadores web.

Estructuras

Empieza por crear el archivo robots.txt. De acuerdo con las recomendaciones de Google, debes aplicar los sistemas de codificación de caracteres ASCII o UTF-8. Mantén todo tan simple como sea posible. Utiliza unas pocas palabras clave terminadas con dos puntos para dar órdenes y crear reglas de acceso.

User-agent: especifica el destinatario del comando. Aquí tienes que introducir el nombre del rastreador web. Es posible encontrar una extensa lista de todos los nombres en línea (http://www.robotstxt.org/db.html), sin embargo, en la mayoría de los casos es probable que desees comunicarte principalmente con Googlebot. Sin embargo, si quieres dar órdenes a todos los robots, sólo tienes que usar el asterisco «*». Así que una ejemplar primera línea del comando para los robots de Google se ve así:

Use-agent: Googlebot

Disallow: (Desactivar) aquí se proporciona la URL que no debe ser escaneada por los bots. Los métodos más comunes incluyen ocultar el contenido de directorios enteros insertando una ruta de acceso que termina con el símbolo «/», por ejemplo:

Disallow: /blocked /

o archivos:

Disallow: /folder/blockedfile.html

Allow: (Permitir) Si alguno de tus directorios ocultos contiene contenido que te gustaría poner a disposición de los rastreadores web, introduce su ruta de archivo después de «Allow»:

Allow: /blocked/unblockeddirectory/

Allow: /blocked/other/unblockedfile.html

Sitemap: (Mapa del sitio) permite definir el camino al mapa del sitio. Sin embargo, este elemento no es obligatorio para que el archivo robots.txt funcione correctamente. Por ejemplo:

Sitemap: http://www.migenialdireccion.com/sitemap.xml

Directivas para los archivos Robots.txt

El ajuste predeterminado

En primer lugar, recuerda que los rastreadores web asumen que se les permite escanear todo el sitio. Así que, si tu archivo robots.txt se supone que se vea así:

User-agent: *

Allow: /

Entonces no necesitas incluirlo en el directorio del sitio. Los bots rastrearán el sitio web según sus propias preferencias. Sin embargo, siempre puedes insertar el archivo para evitar posibles errores durante el análisis del sitio web.

Tipos de letras

Aunque pueda ser sorprendente, los robots son capaces de reconocer letras minúsculas y mayúsculas. Por lo tanto, percibirán file.php y File.php como dos direcciones diferentes.

El poder del asterisco

El asterisco “*” mencionado anteriormente es otra característica muy útil. En el Protocolo de Exclusión de Robots informa que está permitido colocar cualquier secuencia de caracteres de longitud ilimitada (también cero) en un espacio determinado. Por ejemplo:

Disallow: /*/file.html

se aplicará a ambos archivos:

/directory1/file.html

y el de la carpeta:

/folder1/folder2/folder36/file.html

El asterisco también puede servir para otros propósitos. Si lo colocas antes de una extensión de archivo determinada, entonces, la regla es aplicable a todos los archivos de este tipo. Por ejemplo:

Disallow: /*.php

se aplicará a todos los archivos .php de tu sitio (excepto la ruta «/», incluso si conduce a un archivo con la extensión .php), y la regla:

Disallow: /folder1/test*

se aplicará a todos los archivos y carpetas de folder1 que empiece con la palabra «test».

Fin de la secuencia de caracteres

No te olvides del operador «$» que indica el final de la dirección. De esta manera, usando la regla:

User-agent: *

Disallow: /folder1/

Allow: /folder1/*.php$

sugiere a los bots que no indexen el contenido de folder1 pero al mismo tiempo les permite escanear los archivos .php dentro de la carpeta. Las rutas que contienen parámetros cargados como:

http://misitioweb.com/catalogo1/page.php?page=1

No son arrastrados por los robots. Sin embargo, tales problemas pueden ser fácilmente resueltos con URLs canónicos.

Comentarios

Si el archivo creado o tu sitio web es complejo, es aconsejable añadir comentarios que expliquen tus decisiones. Es pan comido, sólo inserta un «#» al principio de la línea y los rastreadores web simplemente saltarán esta parte del contenido durante el escaneo del sitio.

Algunos ejemplos más

Ya conoces la regla que desbloquea el acceso a todos los archivos, sin embargo, también vale la pena aprender la que hace que los rastreadores web abandonen tu sitio.

User-agent: *

Disallow: /

Si tu sitio web no aparece en los resultados de la búsqueda, comprueba si el archivo robots.txt no contiene el comando mencionado.

En la siguiente captura de pantalla puedes ver un ejemplo de archivo robots.txt listo que se encuentra en un sitio web de una tienda en línea:

Contiene un conjunto de todas las estructuras mencionadas anteriormente, excepto el mapa del sitio, que no es obligatorio. Las reglas están dirigidas a todos los bots. Por ejemplo, el directorio «environment» está bloqueado, pero los rastreadores web pueden entrar en la ruta «/environment/cache/images/». Además, el motor de búsqueda no puede acceder al carrito de compras, a la página de inicio de sesión, a las copias del contenido (índice, completo), ni al motor de búsqueda interno y a la sección de comentarios.

¿Dónde colocar el archivo robots.txt?

Si ya has creado un archivo de texto que cumpla con todos los estándares, sólo tienes que subirlo al servidor. Tiene que ser colocado en el directorio principal de tu servidor. Cualquier otra ubicación evitará que los robots lo encuentren. Así que una URL de ejemplo se ve así:

http://misitioweb.com/robots.txt

Si tu sitio web tiene algunas versiones de URL (como las que tienen http, https, www o sin www), es aconsejable aplicar redirecciones apropiadas a un dominio principal. Gracias a ello, el sitio será rastreado adecuadamente.

Información para Google

Un archivo correctamente localizado es fácilmente reconocido por los robots de los motores de búsqueda. Sin embargo, también puedes facilitar su tarea. Google permite a los usuarios de la Consola de Búsqueda examinar sus archivos actuales, comprobar si las modificaciones planificadas funcionan correctamente y subir nuevos archivos robots.txt. Los enlaces en la documentación oficial de Google redirigen a la versión antigua de GSC, por lo que también la vamos a utilizar.

Herramienta de prueba de robots

Fuente: https://www.google.com/webmasters/tools/robots-testing-tool

Con el uso de esta herramienta, puedes comprobar eficazmente si determinados elementos de tu sitio web son visibles para los robots. Por ejemplo, no podrán acceder a la dirección /wp/wp-admin/test.php debido a las restricciones impuestas marcadas en rojo. Puedes informar a Google de que tu archivo robots.txt se ha actualizado mediante la opción «Enviar» y pedirle que vuelva a rastrear tu sitio.

Conclusión

El archivo robots.txt es un conjunto de recomendaciones para los robots que rastrean tu sitio web. La mayoría de los buscadores y rastreadores web más importantes siguen las sugerencias aunque no están obligados a hacerlo. Preparar el archivo según las directrices de Google te ayudará a asegurarte de que todas las subpáginas de tu sitio web se rastreen correctamente. Sin embargo, si deseas evitar por completo que los robots accedan a determinados datos del servidor, vale la pena aplicar otros métodos más fiables, como las contraseñas, que sin duda son más difíciles de descifrar.

Quizá también te interese saber cómo comprobar si Google ha revisado tu sitio.

UNIRME AL GRUPO DE TELEGRAM