En el complejo mundo del SEO, hau un archivo que juega un papel esencial en el rastreo y en la indexación de tu sitio web: el robots.txt. A menudo subestimado, este archivo actúa como el portero digital de tu plataforma, determinando qué puertas abrir y cuáles mantener cerradas para los motores de búsqueda.

En este artículo, exploraremos en detalle qué es el robots.txt, cómo funciona y por qué es tan importante para tu estrategia de optimización de motores de búsqueda. Acompáñanos en este viaje para desentrañar los misterios detrás de este archivo aparentemente simple pero crítico.

¡Sigue leyendo!

Robots.txt

El archivo robots.txt juega un papel vital en el rastreo y la indexación SEO, indicando a los motores de búsqueda qué URLs pueden visitar y cuáles deben evitar, siendo este principio bastante básico y fundamental, se suele subestimar, ya que realmente no se comprenden su alcance y limitaciones.

¿Qué es Robots.txt?

Robots.txt es un archivo de texto que se coloca en la raíz del sitio web y sirve para guiar a los robots de búsqueda sobre qué páginas pueden o no pueden indexar. Es como un portero que decide qué puertas abrir y cuáles mantener cerradas para los motores de búsqueda.

Cómo funciona Robots.txt

Cuando un robot de búsqueda llega a un sitio, lo primero que hace es buscar el archivo robots.txt. Este archivo le indica qué áreas del sitio puede explorar y cuáles debe evitar. Aunque no es obligatorio seguir estas instrucciones, la mayoría de los robots de búsqueda, incluido Google, suelen respetarlas.

¿Por qué es Importante?

Un error en el archivo robots.txt puede tener consecuencias graves. Podría llevar a que los motores de búsqueda ignoren partes importantes de tu sitio o, peor aún, podrían indexar contenido que preferirías mantener privado.

Privacidad

Es crucial entender que robots.txt no garantiza la privacidad. Los motores de búsqueda «éticos» respetarán las directivas, pero no evitará que terceros malintencionados accedan a la información, aunque esta se encuentre bloqueada mediante el archivo robots.txt

El formato general del Robots.txt

El archivo se puede componer de grupos que contienen reglas o directivas específicas para diferentes «user-agents» o rastreadores. Cada grupo inicia con una línea «User-agent», seguida de directivas «Allow» y «Disallow» que especifican las áreas restringidas y permitidas, respectivamente. Los rastreadores procesan estas reglas de arriba abajo, y las reglas son sensibles a mayúsculas y minúsculas. Además, se pueden incluir comentarios con el carácter «#», y se pueden usar comodines «*» para más flexibilidad.

La estructura básica del archivo es bastante simple:

# Hola Google
User-agent: [nombre-del-robot]
Allow: [URL o patrón de URL permitido]
Disallow: [URL o patrón de URL prohibido]

User-agent: [nombre-del-siguiente-robot]
Allow: [URL o patrón de URL permitido]
Disallow: [URL o patrón de URL prohibido]

Además, puedes especificar la ubicación de tu archivo sitemap.xml para ayudar a los motores de búsqueda a encontrar tus páginas más rápidamente:

Sitemap: [ubicación del sitemap]

Reglas y especificaciones del archivo Robots.txt

Aquí hay un resumen de las reglas y especificaciones más importantes:

Ubicación y validez

El archivo robots.txt debe estar en el directorio de nivel superior del sitio y seguir un protocolo compatible (HTTP, HTTPS, FTP).
El archivo debe llamarse robots.txt.
Solo puede haber un archivo robots.txt por sitio.
Los archivos robots.txt deben estar codificados en UTF-8.

Sintaxis y campos

Los campos User-agent, Allow, Disallow y Sitemap son los más comunes.
Los campos Allow y Disallow son las «reglas» que definen las rutas que pueden o no ser rastreadas.
La sintaxis es :<#optional-comment>.

Características específicas

La distinción entre mayúsculas y minúsculas es relevante en las rutas y en las URLs, pero no en el valor del campo User-agent.
Comodines como * y $ para especificar múltiples rutas o el final de una URL.

Errores y Códigos de Estado HTTP

Los códigos de estado 2xx permiten el rastreo.
Los códigos de estado 3xx llevan a un máximo de cinco redirecciones antes de ser tratados como 404.
Los códigos de estado 4xx, excepto 429, se tratan como si no hubiera un archivo robots.txt válido.
Los códigos de estado 5xx hacen que se interrumpa temporalmente el rastreo.

Orden de Prioridad

En caso de conflicto entre las reglas, se utiliza la regla menos restrictiva o la más específica.

Googlebot y Robots.txt

Aunque la documentación de Google es útil, no cubre todas las peculiaridades, lo que podría llevarnos a cometer errores, por ejemplo si bloqueas accidentalmente a Googlebot utilizando robots.txt, tu sitio web desaparecerá de los resultados de búsqueda de Google. Para evitar eso, Google ofrece una serie de herramientas que te permiten verificar y validar tu archivo robots.txt. Por ejemplo, Google Search Console tiene una herramienta de «probador de robots.txt» que permite verificar si tu archivo tiene errores o contradicciones.

Indexación de páginas bloqueadas por Robots.txt

Aunque un archivo robots.txt puede impedir que los motores de búsqueda como Google rastreen e indexen contenido específico de un sitio web, hay casos en los que las URLs bloqueadas aún podrían aparecer en los resultados de búsqueda. Esto sucede si hay enlaces a esas URLs en otros sitios web. En tales escenarios, la URL y cualquier información pública asociada, como el texto del enlace, podrían mostrarse en los resultados de búsqueda de Google.

Para asegurarse de que el contenido no se indexe, se pueden tomar medidas adicionales como:

Proteger los archivos con contraseña en el servidor.
Utilizar etiquetas meta noindex en el HTML de la página.
Utilizar encabezados de respuesta HTTP noindex.
Eliminar completamente la página del sitio web.

Actualizar Robots.txt

Google actualiza automáticamente la caché del archivo robots.txt de un sitio web cada 24 horas. Si necesitas acelerar este proceso, puedes utilizar la función «Enviar» en el Probador de robots.txt. Para confirmar que Google ha rastreado la versión más reciente del archivo, puedes refrescar la página del navegador en la herramienta y verificar que el código del robots.txt coincida con el que deseas que Google utilice. También puedes consultar la marca de tiempo para saber cuándo Google rastreó por última vez el archivo.

Robots habituales de Google

Aquí tienes la tabla con los rastreadores habituales, sus User-agent y una breve descripción de su función:

Rastreador	User-agent	Descripción
Googlebot Smartphone	Googlebot	Rastrea sitios en dispositivos móviles.
Googlebot Desktop	Googlebot	Rastrea sitios en dispositivos de escritorio.
Googlebot Image	Googlebot-Image	Rastrea imágenes.
Googlebot News	Googlebot-News	Rastrea artículos periodísticos.
Googlebot Video	Googlebot-Video	Rastrea vídeos.
Google Favicon	Googlebot-Image	Ignora robots.txt para iconos de página.
Google StoreBot	Storebot-Google	Rastrea páginas de detalles de productos y carritos de compra.
Google-InspectionTool	Google-InspectionTool	Usado en pruebas de herramientas de búsqueda.
GoogleOther	GoogleOther	Rastreador genérico para fines diversos.

Preguntas sobre Robots.txt

Las preguntas sobre el archivo robots.txt son comunes y pueden variar, desde conceptos básicos hasta cuestiones técnicas avanzadas. Entender las respuestas a estas preguntas es crucial para cualquiera que busque maximizar la visibilidad de su sitio web.

¿Necesita mi sitio web un archivo robots.txt?
No es necesario, pero puede ser útil en ciertos casos.
¿Qué método debo utilizar para bloquear rastreadores?
Puede usar robots.txt, etiquetas meta robots, o encabezados HTTP X-Robots-Tag dependiendo de sus necesidades.
¿Puedo retirar el sitio de otro usuario de los resultados de búsqueda?
No, solo puedes controlar el contenido de tu propio sitio.
¿Cómo puedo reducir la frecuencia con la que Google rastrea mi sitio web?
Puede hacerlo a través de Google Search Console.
Si utilizo el mismo archivo robots.txt para diversos sitios web, ¿puedo usar una URL completa en vez de una ruta relativa?
No, solo se admiten rutas relativas.
¿Puedo colocar el archivo robots.txt en un subdirectorio?
No, debe estar en el directorio raíz del sitio web.
Si quiero bloquear una carpeta privada, ¿puedo impedir que otras personas lean el archivo robots.txt?
No, robots.txt es público.
¿Tengo que incluir una regla Allow para permitir el rastreo?
No es necesario, las URLs están permitidas de forma implícita.
¿Sustituye la etiqueta meta robots al archivo robots.txt?
No, ambos tienen propósitos diferentes pero complementarios.
¿Si bloqueo con el archivo robots.txt una sección de mi sitio que ya aparece en los resultados de búsqueda, dejarán de aparecer estos en Google?
No, Google seguirá intentando acceder y mostrar esos resultados en el buscador, para eliminar los resultados del buscador se debe de usar la etiqueta meta robots.

Lectura relacionada: Informe de Cobertura de Indexación en Search Console

Conceptos clave que deberías conocer si eres SEO sobre el Robots.txt

Para finalizar aunque puedan parecer simples, hay varios conceptos clave que se deben entender para implementar una estrategia de SEO efectiva mediante el archivo robots.txt

Tipo y Tamaño de Archivo

Aunque ya lo hemos comentado, asegúrate de que tu archivo robots.txt esté en la raiz del sitio y codificado en UTF-8 para evitar problemas de lectura. Ten en cuenta que Google solo puede leer archivos de hasta 500MB.

Ignorar Directivas HTML

Si utilizas Disallow, todas las directivas HTML como canonical, noindex o nofollow se ignorarán, ya que los robots no podrán acceder al HTML de la página.

Redacción de directivas

La precisión en la redacción de las directivas es crucial. Como hemos dicho puedes utilizar comodines como * y $ para formular reglas más flexibles y específicas, utiliza el probador de robots.txt de Google para estar seguro de que las directivas actuan como deseas.

Retirada de URLs

Aunque hay herramientas disponibles en Google Search Console como la Retirada de URLs, estas son soluciones temporales. Un archivo robots.txt bien estructurado es la mejor forma de que estas URLs no aparezcan.

Directivas No Oficiales

Ten en cuenta que Google ignora directivas no oficialmente reconocidas, como Crawl-delay o Noindex.

Códigos de Respuesta del Servidor

Los diferentes códigos de respuesta del servidor, como 200 (OK), 4xx (Error del cliente), 301 (Redirección permanente) y 503 (Servicio no disponible), tienen implicaciones variadas en cómo Google interactuará con tu archivo robots.txt.

No Bloquear JS y CSS

Es recomendable no bloquear archivos JavaScript y CSS, ya que Google los utiliza para entender mejor el contenido de tu página.

Contenidos 400

Si tienes páginas con códigos de respuesta 400, es mejor bloquearlas en el archivo robots.txt para ahorrar tiempo de rastreo y recursos del servidor.

Conclusión

En resumen, el robots.txt es un componente fundamental del SEO que no debe pasarse por alto. Sirve como el guardián de las puertas digitales de tu sitio web, controlando qué contenido se muestra y cuál se mantiene fuera de los motores de búsqueda.

Comprender su estructura, reglas y limitaciones es esencial para evitar errores costosos y maximizar la visibilidad en línea. Recuerda que, aunque el robots.txt puede guiar a los motores de búsqueda, no garantiza la privacidad total, por lo que es crucial complementarlo con otras medidas de seguridad si es necesario.

Al aprovechar al máximo este archivo y seguir las mejores prácticas, estarás un paso más cerca de alcanzar el éxito en el competitivo mundo del SEO.

Robots.txt para SEO: una poderosa arma oculta