Panel/SEO/Robots.txt

Robots.txt

Directivas de rastreo y reglas de acceso

SEO

Acerca de esta herramienta

El Verificador de Robots.txt de lab.m8d.io obtiene y analiza el archivo /robots.txt de cualquier dominio, parseando cada bloque User-agent, las directivas Allow y Disallow, las referencias a Sitemap y las instrucciones Crawl-delay. La herramienta evalúa el acceso de 18 bots conocidos — incluyendo Googlebot, Bingbot, Baiduspider, YandexBot, DuckDuckBot y Applebot, más bots de IA como GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot, Google-Extended, Amazonbot y Bytespider — y verifica la accesibilidad de cada sitemap declarado.

Sintaxis y directivas de robots.txt

El archivo robots.txt es un estándar de exclusión de robots que reside en la raíz del dominio (/robots.txt). Desde septiembre 2022, esta formalizado como RFC 9309 (Robots Exclusión Protocol) por el IETF. • User-agent — Identifica a que crawler aplican las reglas. El wildcard (*) aplica a todos los bots sin bloque específico. Googlebot-Image y Googlebot-News heredan de Googlebot si no tienen bloque propio. • Disallow — Bloquea el rastreo de una ruta. "Disallow: /" bloquea todo el sitio. Los patrones soportan wildcards (*) y el marcador de fin de URL ($). Ejemplo: "Disallow: /*.pdf$" bloquea todos los archivos PDF. • Allow — Permite excepciones dentro de un Disallow más amplio. Según RFC 9309, la regla más específica (más larga) tiene precedencia, no el orden de aparición. • Sitemap — Declara la ubicación del sitemap XML. Puede ser una URL absoluta y no necesita estar en el mismo dominio. Se pueden declarar multiples sitemaps. Es independiente de los bloques User-agent. • Crawl-delay — Establece segundos entre peticiones. Google ignora completamente Crawl-delay (se configura en Search Console). Bing, Yandex y otros si lo respetan. • Notas de procesamiento — Google cachea robots.txt por hasta 24 horas. Un 404 en robots.txt significa que no hay restricciones. El tamaño máximo que Google procesa es 500 KB.

Gestión de bots de IA: la nueva frontera del robots.txt

Desde 2023, la gestión de crawlers de inteligencia artificial se ha convertido en una decisión estrategica crítica. Los bots de IA rastrean contenido con dos propósitos distintos: entrenamiento de modelos y generación de respuestas en tiempo real. • GPTBot (OpenAI) — Se usa para entrenar modelos GPT y alimentar ChatGPT Browse. Bloquearlo impide que tu contenido se use en entrenamiento futuro. OpenAI también tiene OAI-SearchBot para busqueda en tiempo real y ChatGPT-User para la navegación web dentro de ChatGPT. • ClaudeBot (Anthropic) — Se usa para entrenamiento de los modelos Claude. Bloquear ClaudeBot no afecta las capacidades de Claude en conversación, solo impide que tu contenido se use en futuros entrenamientos. • PerplexityBot — Perplexity AI lo usa para busqueda en tiempo real y generación de respuestas. Bloquear PerplexityBot puede reducir el tráfico de referencia desde Perplexity. • Google-Extended — Controla si Google usa tu contenido para entrenar Gemini y otros modelos de IA. Bloquearlo NO afecta la indexación ni el ranking en Google Search; solo afecta el uso para IA generativa. Es el único user-agent de Google que permite separar busqueda de IA. • Consideraciones estrategicas — Muchos sitios adoptan una estrategia selectiva: permitir bots que generan tráfico de referencia (OAI-SearchBot, PerplexityBot) y bloquear los que solo entrenan modelos (GPTBot, Google-Extended).

robots.txt vs meta robots vs X-Robots-Tag

Estos tres mecanismos controlan diferentes aspectos del rastreo e indexación. Confundirlos es uno de los errores técnicos más costosos en SEO. • robots.txt — Controla el RASTREO (crawling). Impide que el bot descargue la página. Una página bloqueada en robots.txt aún puede aparecer en el índice de Google si tiene enlaces entrantes, pero se mostrará sin title ni description. Bloquear una página en robots.txt NO la desindexara si ya esta indexada. • meta robots (HTML) — Controla la INDEXACION y el comportamiento en SERPs. Se coloca en el <head> como <meta name="robots" content="noindex, nofollow">. Para que Google lea la meta robots, debe poder rastrear la página — no bloquearla en robots.txt. • X-Robots-Tag (HTTP header) — Identico en funcionalidad a meta robots, pero se envía como cabecera HTTP. Util para archivos no HTML (PDF, imagenes, videos) donde no puedes insertar meta tags. • Error crítico común — Si bloqueas una página en robots.txt Y le pones meta robots noindex, Google nunca vera el noindex (porque no puede rastrear la página) y la URL puede permanecer en el índice indefinidamente. La solución correcta para desindexar: quitar el bloqueo en robots.txt, agregar meta robots noindex, esperar a que Google rastree y procese el noindex.

Preguntas frecuentes

¿Qué pasa si mi sitio no tiene archivo robots.txt?

Si el servidor retorna un 404 para /robots.txt, todos los crawlers asumen que no hay restricciones y pueden rastrear todo el sitio. Esto es el comportamiento definido en RFC 9309. No tener robots.txt no penaliza el SEO directamente, pero se pierde la oportunidad de controlar el crawl budget, bloquear secciones privadas, gestionar bots de IA y declarar la ubicación del sitemap.

¿Por qué Google ignora la directiva Crawl-delay?

Google no soporta Crawl-delay porque gestiona la velocidad de rastreo de forma adaptativa basándose en la capacidad del servidor. Si el servidor responde lento o retorna errores 5xx, Googlebot reduce automáticamente la frecuencia de rastreo. La tasa de rastreo se puede ajustar manualmente en Google Search Console > Configuración > Tasa de rastreo. Bing si respeta Crawl-delay y lo usa como mínimo de segundos entre peticiones.

¿Cómo funciona la precedencia de reglas Allow vs Disallow?

Según RFC 9309, la regla más específica (la que tiene el path más largo que coincide con la URL) tiene precedencia, independientemente del orden. Si 'Disallow: /directory/' y 'Allow: /directory/page.html' están en el mismo bloque, /directory/page.html está permitida porque es más específica. Si dos reglas tienen exactamente la misma longitud, Allow tiene precedencia sobre Disallow.

¿Debo bloquear los bots de IA como GPTBot o ClaudeBot?

Depende de tu estrategia. Bloquear todos los bots de IA protege tu contenido pero reduce tu visibilidad en plataformas de IA que están captando cuota de busqueda. Una estrategia equilibrada es bloquear bots de entrenamiento (GPTBot, Google-Extended, CCBot) y permitir bots de busqueda en tiempo real (OAI-SearchBot, PerplexityBot) que generan tráfico de referencia. Google-Extended es especialmente útil porque permite separar la busqueda de Google del uso para IA generativa de Gemini.

¿Es gratuita esta herramienta?

Sí. El Verificador de Robots.txt de lab.m8d.io es completamente gratuito, sin registro ni límites de uso. Analiza el robots.txt de cualquier dominio público en tiempo real, parseando bloques User-agent, reglas Allow/Disallow, directivas Sitemap y Crawl-delay. Evalua el estado de 18 bots conocidos y valida la sintaxis según RFC 9309.