configurar robots.txt para crawlers de IA corretamente

Allow ou Block? Configure o seu robots.txt para GPTBot, ClaudeBot, PerplexityBot e Google-Extended — com snippets de código prontos.

O robots.txt tem 25 anos e de repente voltou a ser uma ferramenta estratégica. Com o surgimento do GPTBot, ClaudeBot, PerplexityBot e Google-Extended, ele não decide apenas quais URLs o Google indexa, mas também se os seus conteúdos podem aparecer nas respostas de IA. Neste artigo, mostramos como configurar este arquivo de forma limpa para o mundo da IA em 2026 — e quais erros são atualmente mais comuns.

Allow ou Block: a decisão estratégica

Quem bloqueia crawlers de IA está a cortar-se de um canal de descoberta em crescimento. Cada resposta gerativa em que a sua marca ou os seus conteúdos poderiam ser citados é eliminada assim que a fonte não está acessível. Para a maioria das marcas, portanto, os crawlers de IA são aliados e devem ser permitidos. Exceções aplicam-se a editores, meios de comunicação e empresas que comercializam os seus conteúdos como ativos exclusivos pagos — aqui, o bloqueio seletivo pode ser sensato, idealmente combinado com modelos de licenciamento como o programa de parcerias da OpenAI. Um bloqueio reflexo de todos os bots de IA, como era comum em 2023, consideramos estrategicamente errado em 2026. O ativismo precoce de alguns editores já se revelou uma desvantagem competitiva — casas que abriram cedo tornaram-se o endereço principal para os seus temas nos sistemas de IA, enquanto os bloqueadores desapareceram lentamente das respostas.

A argumentação típica contra o crawling de IA — "eles usam os meus conteúdos sem compensação" — ignora um ponto crucial: a resposta de IA não é o fim da jornada do utilizador, mas muitas vezes apenas o começo. Quem é citado numa resposta do ChatGPT ganha notoriedade da marca, seo/confianca/">confiança e, em muitos casos, um clique direto para a fonte. Quem não é citado é simplesmente invisível. Esta mecânica é ainda mais forte quanto melhor o seu perfil de backlinks já estiver ancorado no mundo orgânico. Um domínio forte com centenas de backlinks editoriais quase sempre atrai o clique para a fonte na resposta de IA, porque os utilizadores querem confiar na marca citada. Um domínio fraco sem ancoragem externa perde este efeito mesmo quando é mencionado na resposta.

Os principais User-Agents em resumo

Antes de definir regras, você precisa saber a quem se dirige. Os seguintes User-Agents devem aparecer explicitamente em qualquer robots.txt de IA sério — seja com Allow ou com Disallow, mas nunca indefinido. Uma entrada vazia abre espaço para interpretações que alguns crawlers podem usar contra você. Verificamos em cada auditoria GEO primeiro se esses oito bots estão corretamente endereçados. Em cerca de 70% dos casos, encontramos configurações desatualizadas da era pré-IA ou mesmo nenhuma regra específica — ambas são desvantagens competitivas que podem ser corrigidas imediatamente com algumas linhas de configuração.

GPTBot — Crawler de treinamento da OpenAI
OAI-SearchBot — Índice de busca do ChatGPT
ChatGPT-User — chamadas diretas de URL em conversas
ClaudeBot — Crawler da Anthropic
PerplexityBot — Busca ao vivo da Perplexity
Google-Extended — Controla o uso de treinamento do Gemini e Bard
CCBot — Common Crawl, base de muitos LLMs
Bytespider — ByteDance, treinamento do Doubao

Configuração padrão recomendada

Para a maioria das marcas, recomendamos um robots.txt aberto, que permite explicitamente todos os crawlers de IA relevantes e apenas exclui áreas sensíveis como /admin, /checkout ou endpoints de API internos. A seguinte configuração tem se mostrado eficaz em numerosos projetos e pode servir como ponto de partida para o seu próprio arquivo — os caminhos sob Disallow devem, naturalmente, ser ajustados à sua estrutura de site concreta:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

Sitemap: https://www.sua-domain.com/sitemap.xml

Bloquear crawlers de IA significa excluir-se exatamente do canal de descoberta onde os seus fortes backlinks estão apenas a começar a mostrar todo o seu potencial.

Exemplo de um robots.txt configurado corretamente para crawlers de IA — Um robots.txt moderno define regras claras para cada bot de IA relevante.

Configurações seletivas: quando são sensatas

Em certas constelações, pode ser sensato bloquear bots ou caminhos específicos. Conteúdo premium atrás de um paywall, por exemplo, deve impedir chamadas de ChatGPT-User, caso contrário, os conteúdos tornam-se indiretamente acessíveis. Também áreas internas de wiki, portais de funcionários e ambientes de staging devem ser geralmente excluídos. Um bloqueio seletivo de crawlers em treinamento — como GPTBot e CCBot — enquanto se permite bots de busca ao vivo como PerplexityBot é uma estratégia viável para marcas que desejam proteger a sua propriedade intelectual, mas ainda assim aparecer em respostas em tempo real. No entanto, esta constelação deve ser realmente escolhida com cuidado, pois pode custar a representação em dados de treinamento de gerações futuras de modelos. Para a maioria dos nossos clientes, recomendamos o caminho inverso: permitir tudo o que traz visibilidade e diferenciar-se através de modelos de licenciamento e áreas premium.

Importante: um robots.txt não é uma base legal, mas sim um mecanismo de cortesia. Fornecedores sérios cumprem isso, os menos sérios não. Quem deseja proteger conteúdos de forma legal precisa de medidas técnicas adicionais, como bloqueios de IP, limites de taxa e, acima de tudo, condições claras de licenciamento e uso. No entanto, o robots.txt continua a ser o mais importante instrumento de controle declarativo para o mundo da IA. Portanto, nunca deve ser tratado como um arquivo estático, mas sim verificado e atualizado regularmente — recomendamos trimestralmente. Novos bots aparecem, antigos desaparecem, e alguns fornecedores mudam silenciosamente as suas designações de User-Agent em segundo plano.

Linkbuilding e robots.txt: uma dupla subestimada

Aqui entra um aspecto que é frequentemente ignorado na maioria das discussões sobre robots.txt: um robots.txt aberto só revela todo o seu potencial quando o seu domínio também é percebido externamente. Crawlers de IA seguem trilhas de links da mesma forma que o Googlebot. Um robots.txt perfeitamente configurado em um domínio sem backlinks é raramente visitado. Um robots.txt aberto em um domínio com um perfil de backlinks forte e relevante, por outro lado, torna-se uma mina de ouro — crawlers de IA frequentemente visitam, indexam conteúdos atuais rapidamente e citam a sua marca nas respostas geradas.

Isso resulta em uma ordem pragmática: primeiro abrir o robots.txt para IA, depois expandir sistematicamente o perfil de links, e então medir os efeitos pela taxa de referência. Quem combina ambos os mecanismos vê mudanças significativas na visibilidade de IA em poucos meses. Quem apenas utiliza um dos dois mecanismos perde uma grande parte do potencial. Uma entrada de robots.txt bem configurada custa dez minutos de trabalho, um perfil de backlinks sistematicamente desenvolvido é o investimento de vários trimestres — mas juntos, ambos formam a base sobre a qual as marcas construirão a sua visibilidade em IA nos próximos anos.

performanceLiebe verifica o seu robots.txt, identifica configurações bloqueadoras e desenvolve uma estratégia de linkbuilding que aumenta visivelmente a sua visibilidade em IA.

verificar robots.txt agora

Segunda-Sexta		8:00-20:00
Sábado & Domingo		Fechado*

configurar corretamente o robots.txt para crawlers de IA

Allow ou Block: a decisão estratégica

Os principais User-Agents em resumo

Configuração padrão recomendada

Configurações seletivas: quando são sensatas

Linkbuilding e robots.txt: uma dupla subestimada

Entre em contato!

Horário de funcionamento

Configurações de Privacidade

Configurações de Privacidade

configurar corretamente o robots.txt para crawlers de IA

Allow ou Block: a decisão estratégica

Os principais User-Agents em resumo

Configuração padrão recomendada

Configurações seletivas: quando são sensatas

Linkbuilding e robots.txt: uma dupla subestimada

Também pode interessar-lhe

O que é GEO? Otimização de Motores Generativos explicada

O Estudo de Princeton sobre GEO: A Base Científica

ChatGPT, Perplexity & Google AI: As Plataformas de IA em Revisão

Conhecimento certificado:

Entre em contato!

Horário de funcionamento

Somos patrocinadores de:

Conhecimento
certificado: