robots.txt per crawler AI: guida 2026

Allow o Block? Ecco come configurare il tuo robots.txt per GPTBot, ClaudeBot, PerplexityBot e Google-Extended — con snippet di codice pronti all'uso.

Il file robots.txt ha 25 anni ed è improvvisamente tornato a essere uno strumento strategico di controllo. Con l'avvento di GPTBot, ClaudeBot, PerplexityBot e Google-Extended, non decide più soltanto quali URL Google indicizzi, ma anche se i Suoi contenuti possano comparire nelle risposte generate dall'intelligenza artificiale. In questo articolo Le mostriamo come configurare correttamente questo file per il mondo AI nel 2026 — e quali errori si presentano oggi con particolare frequenza.

Allow o Block: la decisione strategica

Chi blocca i crawler AI si esclude da un canale di discovery in forte crescita. Ogni risposta generativa in cui il Suo marchio o i Suoi contenuti potrebbero essere citati viene meno non appena la fonte risulta inaccessibile. Per la stragrande maggioranza dei brand vale dunque il principio: i crawler AI sono alleati e dovrebbero essere autorizzati. Le eccezioni riguardano editori, media e aziende che commercializzano i propri contenuti come asset esclusivo a pagamento — qui un blocco selettivo può avere senso, idealmente in combinazione con modelli di licenza come il programma Partnership di OpenAI. Riteniamo strategicamente sbagliato, nel 2026, il blocco riflesso di tutti i bot AI ancora diffuso nel 2023. L'attivismo precoce di alcuni editori si è già rivelato uno svantaggio competitivo — le testate che si erano aperte per tempo sono diventate per i sistemi AI la fonte primaria sui propri temi, mentre quelle che bloccavano sono lentamente scomparse dalle risposte.

L'argomentazione tipica contro il crawling AI — «usano i miei contenuti senza contropartita» — trascura un punto decisivo: la risposta AI non è la fine del customer journey, ma spesso solo l'inizio. Chi viene citato in una risposta di ChatGPT guadagna brand awareness, fiducia e, in molti casi, un clic diretto verso la fonte. Chi non viene citato è semplicemente invisibile. Questa dinamica agisce con tanta più forza quanto meglio il Suo profilo di backlink è già radicato nel mondo organico. Un dominio forte con centinaia di backlink redazionali porta quasi sempre il clic verso la fonte all'interno della risposta AI, perché gli utenti vogliono fidarsi del marchio citato. Un dominio debole senza ancoraggio esterno rinuncia a questo effetto anche quando viene menzionato nella risposta.

Gli User-Agent più importanti in sintesi

Prima di definire regole, deve sapere a chi Le sta parlando. I seguenti User-Agent dovrebbero comparire esplicitamente in ogni robots.txt seria orientata all'AI — con Allow o con Disallow, ma mai indefiniti. Una voce vuota apre la porta a interpretazioni che alcuni crawler sfruttano a Suo svantaggio. In ogni audit GEO verifichiamo per primo se questi otto bot sono indirizzati correttamente. In circa il 70 percento dei casi troviamo o configurazioni obsolete dell'era pre-AI o nessuna regola specifica — entrambi svantaggi competitivi che possono essere risolti immediatamente con poche righe di configurazione.

GPTBot — crawler di training di OpenAI
OAI-SearchBot — indice di ChatGPT Search
ChatGPT-User — richieste URL dirette nelle conversazioni
ClaudeBot — crawler di Anthropic
PerplexityBot — live search di Perplexity
Google-Extended — controlla l'uso per il training di Gemini e Bard
CCBot — Common Crawl, base di molti LLM
Bytespider — ByteDance, training di Doubao

Configurazione standard consigliata

Per la maggior parte dei brand consigliamo un file robots.txt aperto, che autorizzi esplicitamente tutti i crawler AI rilevanti ed escluda soltanto aree sensibili come /admin, /checkout o gli endpoint API interni. La configurazione che segue si è dimostrata efficace in numerosi progetti e può servire come punto di partenza per il Suo file — i percorsi sotto Disallow vanno naturalmente adattati alla struttura concreta del Suo sito:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

Sitemap: https://www.suo-dominio.it/sitemap.xml

Bloccare i crawler AI significa escludersi proprio da quel canale di discovery in cui i Suoi backlink solidi stanno appena iniziando a sprigionare tutta la loro forza.

Esempio di file robots.txt configurato correttamente per i crawler AI — Un file robots.txt moderno definisce regole chiare per ogni bot AI rilevante.

Configurazioni selettive: quando hanno senso

In determinate costellazioni può avere senso bloccare in modo mirato singoli bot o percorsi. I contenuti premium dietro un paywall, ad esempio, dovrebbero impedire le richieste di ChatGPT-User, altrimenti i contenuti diventano indirettamente accessibili gratuitamente. Anche le aree wiki interne, i portali per dipendenti e gli ambienti di staging dovrebbero essere generalmente esclusi. Un blocco selettivo dei crawler di training — ad esempio GPTBot e CCBot — con contemporanea autorizzazione dei bot di live search come PerplexityBot è una strategia percorribile per i brand che vogliono proteggere la propria IP, ma comparire comunque nelle risposte in tempo reale. Questa configurazione deve però essere scelta davvero in modo consapevole, perché Le costa potenzialmente la rappresentazione nei dati di training delle future generazioni di modelli. Per la maggior parte dei nostri clienti raccomandiamo la via opposta: consentire tutto ciò che porta visibilità e differenziare invece tramite modelli di licenza e aree premium.

Importante: un file robots.txt non è una base giuridica, ma un meccanismo di cortesia. I fornitori seri lo rispettano, quelli meno seri no. Chi vuole proteggere i contenuti in modo giuridicamente sicuro ha bisogno in aggiunta di misure tecniche come blocchi IP, rate limit e soprattutto chiare condizioni di licenza e d'uso. Ciononostante, il file robots.txt resta lo strumento dichiarativo di controllo più importante per il mondo AI. Non dovrebbe quindi mai essere trattato come un file statico, bensì verificato e aggiornato regolarmente — consigliamo su base trimestrale. Compaiono nuovi bot, altri scompaiono, e alcuni fornitori modificano in sordina la denominazione del proprio User-Agent.

Link building e robots.txt: un duo sottovalutato

Qui entra in gioco un aspetto trascurato nella maggior parte delle discussioni sul file robots.txt: un robots.txt aperto sviluppa il suo pieno effetto soltanto quando il Suo dominio viene percepito anche dall'esterno. I crawler AI seguono le tracce dei link esattamente come Googlebot. Un robots.txt configurato alla perfezione su un dominio senza backlink viene visitato di rado. Un robots.txt aperto su un dominio con un profilo di backlink forte e tematicamente rilevante, al contrario, diventa una miniera d'oro — i crawler AI passano frequentemente, indicizzano rapidamente i contenuti nuovi e citano il Suo marchio nelle risposte che ne derivano.

Ne deriva un ordine pragmatico: prima aprire il file robots.txt all'AI, poi sviluppare sistematicamente il profilo di link, infine misurare gli effetti tramite la Reference Rate. Chi combina entrambe le leve vede in pochi mesi spostamenti significativi nella visibilità AI. Chi aziona soltanto una delle due leve rinuncia a gran parte del potenziale. Una voce robots.txt ben configurata Le costa dieci minuti di lavoro, un profilo di backlink cresciuto sistematicamente è l'investimento di più trimestri — ma insieme costituiscono il fondamento su cui i brand costruiranno nei prossimi anni la propria visibilità AI.

performanceLiebe verifica il Suo file robots.txt, individua le configurazioni bloccanti e sviluppa una strategia di link building che aumenta in modo misurabile la Sua visibilità AI.

Richiedere ora la verifica del robots.txt

Lunedì-Venerdì		8:00-20:00
Sabato & Domenica		Chiuso*

Configurare correttamente il file robots.txt per i crawler AI

Allow o Block: la decisione strategica

Gli User-Agent più importanti in sintesi

Configurazione standard consigliata

Configurazioni selettive: quando hanno senso

Link building e robots.txt: un duo sottovalutato

Contattaci!

Orari di ufficio

Impostazioni sulla Privacy

Impostazioni sulla Privacy

Configurare correttamente il file robots.txt per i crawler AI

Allow o Block: la decisione strategica

Gli User-Agent più importanti in sintesi

Configurazione standard consigliata

Configurazioni selettive: quando hanno senso

Link building e robots.txt: un duo sottovalutato

Potrebbe interessarti anche

Google AI Mode: comprendere la nuova dimensione della ricerca

GEO 2026: 7 trend che Lei deve conoscere

Lo studio di Princeton sulla GEO: la base scientifica

Know-How certificato:

Contattaci!

Orari di ufficio

Siamo sponsor di:

Know-How
certificato: