GEO 6 min di lettura

Configurare correttamente robots.txt per i crawler AI

Patrick Tomforde Patrick Tomforde · Lingua: DE EN ES PT NL DA PL EL CS SV HU

Allow o Block? Ecco come configurare il tuo robots.txt per GPTBot, ClaudeBot, PerplexityBot e Google-Extended — con snippet di codice pronti all'uso.


Il robots.txt ha 25 anni ed è tornato improvvisamente a essere uno strumento strategico di controllo. Con l'emergere di GPTBot, ClaudeBot, PerplexityBot e Google-Extended, non decide più solo quali URL indicizzare Google, ma anche se i tuoi contenuti possono apparire nelle risposte AI. In questo articolo mostriamo come configurare correttamente questo file per il mondo AI nel 2026 — e quali errori si verificano attualmente più frequentemente.

Allow o Block: la decisione strategica

Chi blocca i crawler AI si esclude da un canale di scoperta in crescita. Ogni risposta generativa in cui il tuo marchio o i tuoi contenuti potrebbero essere citati viene esclusa non appena la fonte non è accessibile. Per la maggior parte dei marchi, quindi, i crawler AI sono alleati e dovrebbero essere autorizzati. Fanno eccezione gli editori, i media e le aziende che commercializzano i loro contenuti come asset esclusivi a pagamento — qui un blocco selettivo può avere senso, idealmente combinato con modelli di licenza come il programma di partnership di OpenAI. Riteniamo che un blocco riflesso di tutti i bot AI, come era ancora comune nel 2023, sia strategicamente errato nel 2026. L'attivismo precoce di alcuni editori si è già rivelato uno svantaggio competitivo — le aziende che si sono aperte per prime sono diventate l'indirizzo principale per i loro argomenti, mentre i blocchi sono lentamente scomparsi dalle risposte.

La tipica argomentazione contro il crawling AI — "utilizzano i miei contenuti senza compenso" — ignora un punto cruciale: la risposta AI non è la fine del percorso dell'utente, ma spesso solo l'inizio. Chi viene citato in una risposta di ChatGPT guadagna consapevolezza del marchio, seo/fiducia/">fiducia e, in molti casi, un clic diretto sulla fonte. Chi non viene citato è semplicemente invisibile. Questa meccanica è tanto più forte quanto migliore è già il tuo profilo di backlink nel mondo organico. Un dominio forte con centinaia di backlink editoriali attira quasi sempre il clic sulla fonte nella risposta AI, poiché gli utenti vogliono fidarsi del marchio citato. Un dominio debole senza ancoraggio esterno perde questo effetto anche se viene menzionato nella risposta.

I principali User-Agent in sintesi

Prima di definire le regole, devi sapere chi stai cercando di raggiungere. I seguenti User-Agent dovrebbero apparire esplicitamente in ogni robots.txt AI seria — sia con Allow che con Disallow, ma mai indefiniti. Una voce vuota apre la porta a interpretazioni che alcuni crawler possono interpretare a tuo svantaggio. Controlliamo in ogni audit GEO prima se questi otto bot sono correttamente indirizzati. In circa il 70% dei casi troviamo configurazioni obsolete dall'era pre-AI o addirittura nessuna regola specifica — entrambi rappresentano svantaggi competitivi che possono essere risolti immediatamente con poche righe di configurazione.

  • GPTBot — Crawler di addestramento di OpenAI
  • OAI-SearchBot — Indice di ricerca di ChatGPT
  • ChatGPT-User — chiamate URL dirette nelle conversazioni
  • ClaudeBot — Crawler di Anthropic
  • PerplexityBot — Ricerca dal vivo di Perplexity
  • Google-Extended — Gestisce l'uso dell'addestramento di Gemini e Bard
  • CCBot — Common Crawl, base di molti LLM
  • Bytespider — ByteDance, addestramento di Doubao

Configurazione standard consigliata

Per la maggior parte dei marchi, raccomandiamo un robots.txt aperto che consenta esplicitamente tutti i crawler AI rilevanti e escluda solo aree sensibili come /admin, /checkout o endpoint API interni. La seguente configurazione si è dimostrata efficace in numerosi progetti e può servire come punto di partenza per il tuo file — i percorsi sotto Disallow devono ovviamente essere adattati alla tua struttura del sito specifica:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

Sitemap: https://www.ihre-domain.de/sitemap.xml

Bloccare i crawler AI significa escludersi dal canale di scoperta in cui i tuoi forti backlink stanno appena iniziando a esprimere la loro piena potenza.

Esempio di un robots.txt configurato correttamente per i crawler AI
Un robots.txt moderno definisce regole chiare per ogni bot AI rilevante.

Configurazioni selettive: quando hanno senso

In determinate situazioni, può avere senso bloccare specifici bot o percorsi. Contenuti premium dietro una paywall, ad esempio, dovrebbero impedire le chiamate degli utenti di ChatGPT, altrimenti i contenuti diventano indirettamente accessibili. Anche le aree wiki interne, i portali per dipendenti e gli ambienti di staging devono essere generalmente esclusi. Un blocco selettivo dei crawler in fase di addestramento — ad esempio GPTBot e CCBot — con l'autorizzazione simultanea di bot di ricerca dal vivo come PerplexityBot è una strategia praticabile per i marchi che vogliono proteggere la loro IP, ma desiderano comunque apparire nelle risposte in tempo reale. Tuttavia, questa configurazione deve essere scelta consapevolmente, poiché potrebbe costarti la rappresentazione nei dati di addestramento delle generazioni future di modelli. Per la maggior parte dei nostri clienti, raccomandiamo l'approccio opposto: consentire tutto ciò che porta visibilità e differenziare invece tramite modelli di licenza e aree premium.

Importante: un robots.txt non è una base legale, ma un meccanismo di cortesia. I fornitori seri si attengono a questo, quelli meno seri no. Chi vuole proteggere i contenuti in modo legale ha bisogno di misure tecniche aggiuntive come blocchi IP, limiti di frequenza e, soprattutto, condizioni di licenza e utilizzo chiare. Tuttavia, il robots.txt rimane lo strumento di controllo dichiarativo più importante per il mondo AI. Pertanto, non dovrebbe mai essere trattato come un file statico, ma controllato e aggiornato regolarmente — raccomandiamo trimestralmente. Nuovi bot emergono, vecchi scompaiono e alcuni fornitori cambiano silenziosamente le loro designazioni di User-Agent in background.

Linkbuilding e robots.txt: un duo sottovalutato

Qui entra in gioco un aspetto che viene trascurato nella maggior parte delle discussioni sui robots.txt: un robots.txt aperto esprime la sua piena efficacia solo quando il tuo dominio è percepito anche dall'esterno. I crawler AI seguono le tracce dei link proprio come Googlebot. Un robots.txt perfettamente configurato su un dominio senza backlink viene visitato raramente. Un robots.txt aperto su un dominio con un profilo di backlink forte e pertinente, invece, diventa una miniera d'oro — i crawler AI passano frequentemente, indicizzano rapidamente i contenuti attuali e citano il tuo marchio nelle risposte generate.

Ne deriva un ordine pragmatico: prima aprire il robots.txt per l'AI, poi espandere sistematicamente il profilo dei link, quindi misurare gli effetti attraverso il Reference Rate. Chi combina entrambi i fattori vede spostamenti significativi nella visibilità AI in pochi mesi. Chi tira solo uno dei due fattori perde gran parte del potenziale. Un'entrata robots.txt ben configurata richiede dieci minuti di lavoro, un profilo di backlink cresciuto sistematicamente è l'investimento di diversi trimestri — ma insieme formano le fondamenta su cui i marchi costruiranno la loro visibilità AI nei prossimi anni.

performanceLiebe verifica il tuo robots.txt, identifica le configurazioni bloccanti e sviluppa una strategia di linkbuilding che aumenta visibilmente la tua visibilità AI.

Fai controllare il robots.txt ora