robots.txt vezérlése AI-crawlerekhez 2026

A robots.txt 25 éves, és hirtelen ismét stratégiai vezérlőeszközzé vált. A GPTBot, ClaudeBot, PerplexityBot és Google-Extended megjelenésével már nemcsak arról dönt, hogy a Google mely URL-eket indexeli, hanem arról is, hogy az Ön tartalmai egyáltalán megjelenhetnek-e az AI-válaszokban. Ebben a cikkben bemutatjuk, hogyan konfigurálja ezt a fájlt 2026-ban tisztán az AI-világhoz — és melyek azok a hibák, amelyek jelenleg különösen gyakran fordulnak elő.

Allow vagy Block: a stratégiai döntés

Aki blokkolja az AI-crawlereket, az elvágja magát egy növekvő felfedezési csatornától. Minden generatív válasz, amelyben az Ön márkáját vagy tartalmait idézhetnék, kiesik, amint a forrás nem hozzáférhető. A legtöbb márka számára tehát érvényes: az AI-crawlerek szövetségesek, és engedélyezni kell őket. Kivételek vonatkoznak a kiadókra, médiumokra és olyan vállalatokra, amelyek tartalmaikat fizetős, exkluzív vagyonelemként értékesítik — itt értelmes lehet a szelektív blokkolás, ideális esetben olyan licencmodellekkel kombinálva, mint az OpenAI partnerprogramja. Az összes AI-bot reflexszerű blokkolását, ahogyan az 2023-ban még elterjedt volt, 2026-ban stratégiailag hibásnak tartjuk. Egyes kiadók korai aktivizmusa már versenyhátránynak bizonyult — azok a házak, amelyek korán megnyíltak, az AI-rendszerek elsődleges forráscímévé váltak a témáikban, miközben a blokkolók lassan eltűntek a válaszokból.

A tipikus AI-crawling elleni érvelés — „ellenszolgáltatás nélkül használják a tartalmaimat" — figyelmen kívül hagy egy döntő pontot: az AI-válasz nem a felhasználói út vége, hanem gyakran csak a kezdete. Akit egy ChatGPT-válaszban idéznek, márkaismertséget, bizalmat és sok esetben közvetlen kattintást nyer a forráshoz. Aki nincs idézve, az egyszerűen láthatatlan. Ez a mechanika annál erősebben hat, minél jobban beágyazott már a Backlink-profilja a szerves világban. Egy erős domain több száz szerkesztőségi backlinkkel az AI-válaszban szinte mindig kattintást vonz a forráshoz, mert a felhasználók bízni akarnak az idézett márkában. Egy gyenge, külső lehorgonyzás nélküli domain elveszíti ezt a hatást akkor is, ha megemlítik a válaszban.

A legfontosabb User-Agentek áttekintése

Mielőtt szabályokat definiálna, tudnia kell, kit szólít meg. A következő User-Agenteknek minden komolyan vett AI-robots.txt-ben explicit módon szerepelniük kell — vagy Allow, vagy Disallow utasítással, de soha nem definiálatlanul. Egy üres bejegyzés tág értelmezési mozgásteret nyit, amelyet egyes crawlerek az Ön kárára értelmeznek. Minden GEO-auditban először azt ellenőrizzük, hogy ezt a nyolc botot helyesen címezték-e meg. Az esetek mintegy 70 százalékában vagy elavult, AI előtti korból származó konfigurációkat találunk, vagy egyáltalán nincsenek specifikus szabályok — mindkettő versenyhátrány, amely néhány sornyi konfigurációval azonnal orvosolható.

GPTBot — Az OpenAI tréning-crawlere
OAI-SearchBot — ChatGPT-Search-Index
ChatGPT-User — közvetlen URL-hívások beszélgetésekben
ClaudeBot — Az Anthropic crawlere
PerplexityBot — A Perplexity élő keresése
Google-Extended — A Gemini és Bard tréninghasználatát vezérli
CCBot — Common Crawl, számos LLM alapja
Bytespider — ByteDance, Doubao-tréning

Ajánlott alapkonfiguráció

A legtöbb márka számára nyitott robots.txt-t ajánlunk, amely explicit módon engedélyezi az összes releváns AI-crawlert, és csak az érzékeny területeket, mint a /admin, /checkout vagy belső API-végpontokat zárja ki. A következő konfiguráció számos projektben bevált, és kiindulópontként szolgálhat saját fájljához — a Disallow alatti útvonalakat természetesen az Ön konkrét oldalstruktúrájához igazítja:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

Sitemap: https://www.ihre-domain.de/sitemap.xml

Az AI-crawlerek blokkolása azt jelenti, hogy kizárja magát pontosan abból a felfedezési csatornából, amelyben az erős backlinkjei éppen most bontakoztatják ki teljes erejüket.

Példa egy AI-crawlerekhez helyesen konfigurált robots.txt-re — A modern robots.txt világos szabályokat határoz meg minden releváns AI-bothoz.

Szelektív konfigurációk: mikor van értelmük

Bizonyos konstellációkban értelmes lehet egyes botok vagy útvonalak célzott blokkolása. A fizetőfal mögötti prémium tartalomnak például meg kell akadályoznia a ChatGPT-User hívásokat, mert különben a tartalmak közvetve szabadon hozzáférhetővé válnak. A belső wiki-területek, munkavállalói portálok és staging-környezetek is általában kizárandók. A tréning-crawlerek szelektív blokkolása — például GPTBot és CCBot — az olyan élő-kereső botok, mint a PerplexityBot egyidejű engedélyezése mellett járható stratégia azon márkák számára, amelyek védeni akarják IP-jüket, de mégis meg akarnak jelenni a valós idejű válaszokban. Ezt a konstellációt azonban valóban tudatosan kell választani, mert potenciálisan a jövőbeli modellgenerációk tréningadataiban való megjelenésbe kerül. Ügyfeleink többségének a fordított utat ajánljuk: mindent engedélyezni, ami láthatóságot hoz, és ehelyett licencmodellekkel és prémium területekkel differenciálni.

Fontos: a robots.txt nem jogi alap, hanem udvariassági mechanizmus. A komoly szolgáltatók betartják, a kevésbé komolyak nem. Aki jogilag biztosan akarja védeni a tartalmait, annak további technikai intézkedésekre van szüksége, mint IP-tiltások, rate limitek és mindenekelőtt világos licenc- és felhasználási feltételek. Ennek ellenére a robots.txt marad a legfontosabb deklaratív vezérlőeszköz az AI-világ számára. Ezért soha nem szabad statikus fájlként kezelni, hanem rendszeresen — negyedévente ajánljuk — felül kell vizsgálni és frissíteni. Új botok jelennek meg, régiek tűnnek el, és néhány szolgáltató csendben megváltoztatja a User-Agent megnevezéseit a háttérben.

Linképítés és robots.txt: egy alábecsült páros

Itt jön szóba egy szempont, amelyet a legtöbb robots.txt-vitában mellőznek: egy nyitott robots.txt csak akkor bontakoztatja ki teljes hatását, ha az Ön domainjét kívülről is érzékelik. Az AI-crawlerek ugyanúgy követik a link-nyomokat, mint a Googlebot. Egy tökéletesen konfigurált robots.txt egy backlinkek nélküli domainen csak ritkán kerül látogatásra. Egy nyitott robots.txt egy erős, témarelevánsan lehorgonyzott backlink-profillal rendelkező domainen viszont aranybányává válik — az AI-crawlerek gyakran benéznek, gyorsan indexelik az aktuális tartalmakat, és idézik az Ön márkáját a keletkező válaszokban.

Ebből pragmatikus sorrend következik: először nyissa meg a robots.txt-t az AI-nek, majd szisztematikusan építse ki a linkprofilt, ezután mérje a hatásokat a Reference Rate segítségével. Aki mindkét emelőt kombinálja, néhány hónapon belül jelentős eltolódásokat lát az AI-láthatóságban. Aki csak az egyik emelőt húzza meg, a potenciál nagy részét elveszíti. Egy jól konfigurált robots.txt-bejegyzés tíz perc munkájába kerül, egy szisztematikusan kinövő backlink-profil több negyedév befektetése — de együtt mindkettő alapul szolgál, amelyre a márkák a következő években felépítik AI-láthatóságukat.

A performanceLiebe felülvizsgálja az Ön robots.txt-jét, azonosítja a blokkoló konfigurációkat és kidolgoz egy linképítési stratégiát, amely mérhetően növeli az Ön AI-láthatóságát.

robots.txt felülvizsgálatának kérése