GEO 6 min. czytania

Jak prawidłowo skonfigurować plik robots.txt dla crawlerów AI

Patrick Tomforde Patrick Tomforde · Język: DE EN ES PT IT NL DA EL CS SV HU

Allow czy Block? Jak skonfigurować swoją robots.txt dla GPTBot, ClaudeBot, PerplexityBot i Google-Extended — z gotowymi fragmentami kodu.


Plik robots.txt ma 25 lat i nagle znów stał się strategicznym instrumentem sterowania. Wraz z pojawieniem się GPTBot, ClaudeBot, PerplexityBot i Google-Extended decyduje on już nie tylko o tym, które adresy URL indeksuje Google, ale także o tym, czy Państwa treści mogą w ogóle pojawić się w odpowiedziach AI. W niniejszym artykule pokazujemy, jak w 2026 roku poprawnie skonfigurować ten plik dla świata AI — oraz jakie błędy popełniane są obecnie szczególnie często.

Allow czy Block: decyzja strategiczna

Kto blokuje crawlery AI, sam odcina się od rosnącego kanału discovery. Każda generatywna odpowiedź, w której mogłaby zostać przytoczona Państwa marka lub Państwa treści, odpada, gdy tylko źródło jest niedostępne. Dla zdecydowanej większości marek obowiązuje zatem zasada: crawlery AI są sojusznikami i powinny być dopuszczone. Wyjątki dotyczą wydawców, mediów oraz przedsiębiorstw sprzedających swoje treści jako płatne, ekskluzywne aktywa — w tych przypadkach selektywne blokowanie może być uzasadnione, najlepiej w połączeniu z modelami licencyjnymi, takimi jak Partnership-Programm OpenAI. Odruchowe blokowanie wszystkich botów AI, jakie było jeszcze rozpowszechnione w 2023 roku, uważamy w 2026 roku za błąd strategiczny. Wczesny aktywizm niektórych wydawców okazał się już niekorzystny konkurencyjnie — wydawnictwa, które wcześnie się otworzyły, stały się dla systemów AI głównym źródłem informacji w swoich tematach, podczas gdy ci, którzy blokowali, powoli znikali z odpowiedzi.

Typowa argumentacja przeciwko crawlingowi AI — „korzystają z moich treści bez świadczenia wzajemnego” — pomija pewien decydujący punkt: odpowiedź AI nie jest końcem user journey, lecz często dopiero jego początkiem. Kto zostanie przytoczony w odpowiedzi ChatGPT, zyskuje świadomość marki, zaufanie, a w wielu przypadkach również bezpośrednie kliknięcie do źródła. Kto nie jest cytowany, jest po prostu niewidoczny. Mechanika ta działa tym silniej, im lepiej Państwa profil backlinków jest już zakorzeniony w świecie organicznym. Silna domena z setkami redakcyjnych backlinków niemal zawsze przyciąga w odpowiedzi AI kliknięcie do źródła, ponieważ użytkownicy chcą ufać cytowanej marce. Słaba domena bez zewnętrznego zakotwiczenia traci ten efekt, nawet jeśli zostanie wymieniona w odpowiedzi.

Najważniejsze User-Agenty w przeglądzie

Zanim zdefiniują Państwo reguły, muszą Państwo wiedzieć, do kogo się zwracają. Następujące User-Agenty powinny wyraźnie pojawić się w każdym poważnie traktowanym pliku robots.txt dla AI — albo z Allow, albo z Disallow, ale nigdy bez zdefiniowania. Pusty wpis otwiera drzwi szeroko dla swobodnej interpretacji, którą niektóre crawlery mogą wykorzystać na Państwa niekorzyść. W każdym audycie GEO sprawdzamy najpierw, czy te osiem botów jest poprawnie zaadresowane. W około 70 procentach przypadków znajdujemy albo przestarzałe konfiguracje z ery pre-AI, albo żadnych konkretnych reguł — w obu przypadkach są to wady konkurencyjne, które można natychmiast usunąć kilkoma linijkami konfiguracji.

  • GPTBot — crawler treningowy OpenAI
  • OAI-SearchBot — indeks ChatGPT-Search
  • ChatGPT-User — bezpośrednie wywołania URL w rozmowach
  • ClaudeBot — crawler firmy Anthropic
  • PerplexityBot — live search Perplexity
  • Google-Extended — steruje wykorzystaniem treningowym Gemini i Bard
  • CCBot — Common Crawl, podstawa wielu LLM
  • Bytespider — ByteDance, trening Doubao

Zalecana konfiguracja standardowa

Większości marek zalecamy otwarty plik robots.txt, który jawnie zezwala wszystkim istotnym crawlerom AI i wyklucza jedynie wrażliwe obszary, takie jak /admin, /checkout czy wewnętrzne punkty końcowe API. Poniższa konfiguracja sprawdziła się w licznych projektach i może służyć jako punkt wyjścia dla Państwa własnego pliku — ścieżki w Disallow należy oczywiście dostosować do konkretnej struktury Państwa strony:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

Sitemap: https://www.ihre-domain.de/sitemap.xml

Blokowanie crawlerów AI oznacza odcięcie się dokładnie od tego kanału discovery, w którym Państwa silne backlinki dopiero teraz w pełni rozwijają swoją moc.

Przykład poprawnie skonfigurowanego pliku robots.txt dla crawlerów AI
Nowoczesny plik robots.txt definiuje jasne reguły dla każdego istotnego bota AI.

Konfiguracje selektywne: kiedy mają sens

W określonych konstelacjach celowe blokowanie poszczególnych botów lub ścieżek może być uzasadnione. Treści premium za paywallem powinny na przykład uniemożliwiać wywołania ChatGPT-User, ponieważ w przeciwnym razie treści stałyby się pośrednio swobodnie dostępne. Również wewnętrzne obszary wiki, portale pracownicze i środowiska stagingowe powinny być generalnie wykluczone. Selektywne blokowanie crawlerów treningowych — na przykład GPTBot i CCBot — przy jednoczesnym dopuszczeniu botów live-search, takich jak PerplexityBot, jest możliwą strategią dla marek, które chcą chronić swoje IP, a jednocześnie pojawiać się w odpowiedziach w czasie rzeczywistym. Tę konstelację należy jednak wybrać naprawdę świadomie, ponieważ kosztuje Państwa potencjalnie reprezentację w danych treningowych nadchodzących generacji modeli. Większości naszych klientów zalecamy drogę odwrotną: zezwalać na wszystko, co przynosi widoczność, a różnicować poprzez modele licencyjne i obszary premium.

Ważne: plik robots.txt nie jest podstawą prawną, lecz mechanizmem uprzejmości. Poważni dostawcy go przestrzegają, mniej poważni nie. Kto chce chronić treści w sposób prawnie pewny, potrzebuje dodatkowo środków technicznych, takich jak blokady IP, limity szybkości, a przede wszystkim jasnych warunków licencyjnych i warunków użytkowania. Mimo to plik robots.txt pozostaje najważniejszym deklaratywnym instrumentem sterowania dla świata AI. Dlatego nigdy nie powinno się go traktować jako pliku statycznego, lecz regularnie — zalecamy kwartalnie — sprawdzać i aktualizować. Pojawiają się nowe boty, stare znikają, a niektórzy dostawcy po cichu zmieniają oznaczenia swoich User-Agentów w tle.

Linkbuilding i robots.txt: niedoceniany duet

Tu wchodzi w grę aspekt pomijany w większości dyskusji o robots.txt: otwarty plik robots.txt rozwija swoją pełną skuteczność dopiero wtedy, gdy Państwa domena jest również postrzegana z zewnątrz. Crawlery AI podążają śladami linków dokładnie tak samo, jak Googlebot. Doskonale skonfigurowany plik robots.txt na domenie bez backlinków będzie odwiedzany tylko sporadycznie. Z kolei otwarty plik robots.txt na domenie z silnym, tematycznie relewantnym profilem backlinków staje się prawdziwą żyłą złota — crawlery AI często do niej zaglądają, szybko indeksują aktualne treści i cytują Państwa markę w powstających odpowiedziach.

Z tego wynika pragmatyczna kolejność: najpierw otworzyć plik robots.txt dla AI, następnie systematycznie rozbudować profil linków, a potem mierzyć efekty za pomocą Reference Rate. Kto łączy obie dźwignie, w ciągu kilku miesięcy zauważa wyraźne przesunięcia w widoczności AI. Kto pociąga tylko za jedną z dźwigni, traci znaczną część potencjału. Dobrze skonfigurowany wpis robots.txt kosztuje Państwa dziesięć minut pracy, systematycznie wypracowany profil backlinków to inwestycja kilku kwartałów — ale razem stanowią fundament, na którym marki w nadchodzących latach będą budować swoją widoczność AI.

performanceLiebe sprawdza Państwa plik robots.txt, identyfikuje blokujące konfiguracje i opracowuje strategię linkbuildingu, która mierzalnie zwiększa Państwa widoczność AI.

Zlecić audyt robots.txt teraz