GEO 6 min. de lectura

Configurar correctamente robots.txt para crawlers de IA

Patrick Tomforde Patrick Tomforde · Idioma: DE EN PT IT NL DA PL EL CS SV HU

¿Permitir o bloquear? Así configura su robots.txt para GPTBot, ClaudeBot, PerplexityBot y Google-Extended — con fragmentos de código listos para usar.


El robots.txt tiene 25 años y de repente es nuevamente una herramienta estratégica de control. Con la llegada de GPTBot, ClaudeBot, PerplexityBot y Google-Extended, ya no solo decide qué URLs indexa Google, sino también si su contenido puede aparecer en respuestas de IA. En este artículo mostramos cómo configurar este archivo de manera limpia para el mundo de la IA en 2026 — y cuáles errores son especialmente comunes en la actualidad.

¿Permitir o bloquear?: la decisión estratégica

Quien bloquea crawlers de IA se está excluyendo de un canal de descubrimiento en crecimiento. Cada respuesta generativa en la que se podría citar su marca o su contenido se pierde, una vez que la fuente no es accesible. Por lo tanto, para la gran mayoría de las marcas, los crawlers de IA son aliados y deben ser permitidos. Excepciones aplican para editores, medios y empresas que comercializan su contenido como un activo exclusivo de pago — aquí puede ser útil un bloqueo selectivo, idealmente combinado con modelos de licencia como el programa de asociación de OpenAI. Consideramos que un bloqueo reflexivo de todos los bots de IA, como era común en 2023, es estratégicamente erróneo en 2026. El activismo temprano de algunos editores ya se ha revelado como una desventaja competitiva — las casas que abrieron temprano se convirtieron en la dirección principal de fuentes para sus temas, mientras que los bloqueadores desaparecieron lentamente de las respuestas.

La típica argumentación contra el crawling de IA — "utilizan mi contenido sin compensación" — ignora un punto crucial: La respuesta de IA no es el final del viaje del usuario, sino a menudo solo el comienzo. Quien es citado en una respuesta de ChatGPT gana reconocimiento de marca, seo/confianza/">confianza y en muchos casos un clic directo hacia la fuente. Quien no es citado, simplemente es invisible. Esta mecánica es aún más fuerte, cuanto mejor esté su perfil de backlinks ya anclado en el mundo orgánico. Un dominio fuerte con cientos de backlinks editoriales casi siempre atrae el clic hacia la fuente en la respuesta de IA, porque los usuarios quieren confiar en la marca citada. Un dominio débil sin anclaje externo pierde este efecto incluso si se menciona en la respuesta.

Los principales User-Agents en un vistazo

Antes de definir reglas, debe saber a quién se dirige. Los siguientes User-Agents deben aparecer explícitamente en cada robots.txt de IA seria — ya sea con Allow o con Disallow, pero nunca indefinido. Una entrada vacía abre la puerta a la interpretación, que algunos crawlers pueden interpretar en su contra. En cada auditoría GEO, primero verificamos si estos ocho bots están correctamente dirigidos. En aproximadamente el 70 por ciento de los casos, encontramos configuraciones obsoletas de la era pre-IA o ninguna regla específica — ambas son desventajas competitivas que se pueden solucionar de inmediato con unas pocas líneas de configuración.

  • GPTBot — Crawler de entrenamiento de OpenAI
  • OAI-SearchBot — Índice de búsqueda de ChatGPT
  • ChatGPT-User — llamadas directas a URL en conversaciones
  • ClaudeBot — Crawler de Anthropic
  • PerplexityBot — Búsqueda en vivo de Perplexity
  • Google-Extended — Controla el uso de entrenamiento de Gemini y Bard
  • CCBot — Common Crawl, base de muchos LLMs
  • Bytespider — ByteDance, entrenamiento de Doubao

Configuración estándar recomendada

Para la mayoría de las marcas, recomendamos un robots.txt abierto que permita explícitamente todos los crawlers de IA relevantes y solo excluya áreas sensibles como /admin, /checkout o puntos finales de API internos. La siguiente configuración ha demostrado ser efectiva en numerosos proyectos y puede servir como punto de partida para su propio archivo — los caminos bajo Disallow deben adaptarse a la estructura concreta de su sitio:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

Sitemap: https://www.su-dominio.com/sitemap.xml

Bloquear crawlers de IA significa cerrarse a exactamente el canal de descubrimiento en el que sus fuertes backlinks recién comienzan a desplegar todo su potencial.

Ejemplo de un robots.txt correctamente configurado para crawlers de IA
Un robots.txt moderno define reglas claras para cada bot de IA relevante.

Configuraciones selectivas: cuándo son útiles

En ciertas configuraciones puede ser útil bloquear selectivamente bots o caminos específicos. Contenido premium detrás de un muro de pago, por ejemplo, debería prevenir llamadas de ChatGPT-User, ya que de lo contrario el contenido se vuelve indirectamente accesible. También se deben excluir generalmente áreas internas de Wiki, portales de empleados y entornos de staging. Un bloqueo selectivo de crawlers en entrenamiento — como GPTBot y CCBot — mientras se permite a bots de búsqueda en vivo como PerplexityBot es una estrategia viable para marcas que desean proteger su IP, pero aún así quieren aparecer en respuestas en tiempo real. Sin embargo, esta configuración debe ser realmente elegida con conciencia, ya que podría costarle la representación en los datos de entrenamiento de futuras generaciones de modelos. Para la mayoría de nuestros clientes, recomendamos el camino inverso: permitir todo lo que aporta visibilidad y diferenciarse en cambio a través de modelos de licencia y áreas premium.

Importante: Un robots.txt no es una base legal, sino un mecanismo de cortesía. Los proveedores serios se adhieren a él, los menos serios no. Quien desea proteger su contenido de manera legal necesita medidas técnicas adicionales como bloqueos de IP, límites de tasa y, sobre todo, condiciones de licencia y uso claras. Sin embargo, el robots.txt sigue siendo el instrumento de control declarativo más importante para el mundo de la IA. Por lo tanto, nunca debe ser tratado como un archivo estático, sino revisado y actualizado regularmente — recomendamos trimestralmente. Aparecen nuevos bots, los viejos desaparecen y algunos proveedores cambian silenciosamente sus designaciones de User-Agent en segundo plano.

Linkbuilding y robots.txt: un dúo subestimado

Aquí entra en juego un aspecto que se pasa por alto en la mayoría de las discusiones sobre robots.txt: Un robots.txt abierto despliega su pleno efecto solo cuando su dominio también es percibido desde el exterior. Los crawlers de IA siguen las huellas de enlaces de la misma manera que Googlebot. Un robots.txt perfectamente configurado en un dominio sin backlinks rara vez es visitado. Un robots.txt abierto en un dominio con un perfil de backlinks fuerte y relevante, en cambio, se convierte en una mina de oro — los crawlers de IA pasan con frecuencia, indexan contenido actual rápidamente y citan su marca en las respuestas generadas.

De esto se deduce un orden pragmático: Primero abrir el robots.txt para IA, luego expandir sistemáticamente el perfil de enlaces, y después medir los efectos a través de la tasa de referencia. Quien combina ambos palancas, ve cambios significativos en la visibilidad de IA en unos pocos meses. Quien solo tira de una de las dos palancas, pierde gran parte del potencial. Una entrada de robots.txt bien configurada le cuesta diez minutos de trabajo, un perfil de backlinks que ha crecido sistemáticamente es la inversión de varios trimestres — pero juntos forman la base sobre la cual las marcas construirán su visibilidad de IA en los próximos años.

performanceLiebe revisa su robots.txt, identifica configuraciones bloqueadoras y desarrolla una estrategia de linkbuilding que aumente su visibilidad en IA de manera medible.

Revisar robots.txt ahora