GEO 5 Min Lesezeit

robots.txt für AI-Crawler richtig konfigurieren

Patrick Tomforde Patrick Tomforde ·

Allow oder Block? So konfigurieren Sie Ihre robots.txt für GPTBot, ClaudeBot, PerplexityBot und Google-Extended — mit fertigen Code-Snippets.


Die robots.txt ist 25 Jahre alt und plötzlich wieder ein strategisches Steuerungsinstrument. Mit dem Aufkommen von GPTBot, ClaudeBot, PerplexityBot und Google-Extended entscheidet sie nicht mehr nur darüber, welche URLs Google indexiert, sondern auch, ob Ihre Inhalte überhaupt in KI-Antworten auftauchen können. In diesem Artikel zeigen wir, wie Sie diese Datei 2026 sauber für die KI-Welt konfigurieren — und welche Fehler aktuell besonders häufig vorkommen.

Allow oder Block: die strategische Entscheidung

Wer KI-Crawler blockiert, schneidet sich selbst von einem wachsenden Discovery-Kanal ab. Jede generative Antwort, in der Ihre Marke oder Ihre Inhalte zitiert werden könnten, fällt aus, sobald die Quelle nicht zugänglich ist. Für die allermeisten Marken gilt deshalb: KI-Crawler sind Verbündete und sollten erlaubt sein. Ausnahmen gelten für Verlage, Medien und Unternehmen, die ihre Inhalte als kostenpflichtiges, exklusives Asset vermarkten — hier kann selektives Blocking sinnvoll sein, idealerweise kombiniert mit Lizenzmodellen wie OpenAIs Partnership-Programm. Eine reflexartige Blockade aller KI-Bots, wie sie 2023 noch verbreitet war, halten wir 2026 für strategisch falsch. Der frühe Aktivismus mancher Verlage hat sich bereits als Wettbewerbsnachteil entpuppt — Häuser, die früh geöffnet hatten, wurden von KI-Systemen zur primären Quellenadresse für ihre Themen, während die Blocker langsam aus den Antworten verschwanden.

Die typische Argumentation gegen KI-Crawling — "die nutzen meine Inhalte ohne Gegenleistung" — verkennt einen entscheidenden Punkt: Die KI-Antwort ist nicht das Ende der User Journey, sondern oft erst der Anfang. Wer in einer ChatGPT-Antwort zitiert wird, gewinnt Marken-Awareness, Trust und in vielen Fällen einen direkten Klick zur Quelle. Wer nicht zitiert wird, ist schlicht unsichtbar. Diese Mechanik wirkt umso stärker, je besser Ihr Backlink-Profil bereits in der organischen Welt verankert ist. Eine starke Domain mit hunderten redaktionellen Backlinks zieht in der KI-Antwort fast immer den Klick auf die Quelle nach sich, weil Nutzer der zitierten Marke vertrauen wollen. Eine schwache Domain ohne externe Verankerung verschenkt diesen Effekt selbst dann, wenn sie in der Antwort genannt wird.

Die wichtigsten User-Agents im Überblick

Bevor Sie Regeln definieren, müssen Sie wissen, wen Sie ansprechen. Die folgenden User-Agents sollten in jeder ernstgemeinten KI-robots.txt explizit auftauchen — entweder mit Allow oder mit Disallow, aber niemals undefiniert. Ein leerer Eintrag öffnet Tür und Tor für Interpretationsspielraum, den manche Crawler zu Ihren Ungunsten auslegen. Wir prüfen in jedem GEO-Audit zuerst, ob diese acht Bots korrekt adressiert sind. In rund 70 Prozent der Fälle finden wir entweder veraltete Konfigurationen aus der Pre-KI-Ära oder gar keine spezifischen Regeln — beides Wettbewerbsnachteile, die sich mit ein paar Zeilen Konfiguration sofort beheben lassen.

  • GPTBot — Trainings-Crawler von OpenAI
  • OAI-SearchBot — ChatGPT-Search-Index
  • ChatGPT-User — direkte URL-Aufrufe in Konversationen
  • ClaudeBot — Crawler von Anthropic
  • PerplexityBot — Live-Search von Perplexity
  • Google-Extended — Steuert Gemini- und Bard-Trainingsnutzung
  • CCBot — Common Crawl, Basis vieler LLMs
  • Bytespider — ByteDance, Doubao-Training

Empfohlene Standardkonfiguration

Für die meisten Marken empfehlen wir eine offene robots.txt, die alle relevanten KI-Crawler explizit erlaubt und nur sensible Bereiche wie /admin, /checkout oder interne API-Endpunkte ausschließt. Die folgende Konfiguration hat sich in zahlreichen Projekten bewährt und kann als Ausgangspunkt für Ihre eigene Datei dienen — die Pfade unter Disallow passen Sie selbstverständlich an Ihre konkrete Site-Struktur an:

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/

Sitemap: https://www.ihre-domain.de/sitemap.xml

KI-Crawler zu blockieren bedeutet, sich aus genau dem Discovery-Kanal auszusperren, in dem Ihre starken Backlinks gerade erst ihre volle Kraft entfalten.

Beispiel einer korrekt konfigurierten robots.txt für KI-Crawler
Eine moderne robots.txt definiert klare Regeln für jeden relevanten KI-Bot.

Selektive Konfigurationen: wann sie sinnvoll sind

In bestimmten Konstellationen kann es sinnvoll sein, einzelne Bots oder Pfade gezielt zu blocken. Premium-Content hinter einer Paywall etwa sollte ChatGPT-User-Aufrufe verhindern, da sonst Inhalte indirekt frei zugänglich werden. Auch interne Wiki-Bereiche, Mitarbeiterportale und Staging-Umgebungen gehören generell ausgeschlossen. Eine selektive Blockierung trainierender Crawler — beispielsweise GPTBot und CCBot — bei gleichzeitiger Erlaubnis von Live-Search-Bots wie PerplexityBot ist eine gangbare Strategie für Marken, die ihre IP schützen, aber dennoch in Echtzeit-Antworten erscheinen wollen. Diese Konstellation muss jedoch wirklich bewusst gewählt werden, denn sie kostet Sie potenziell die Repräsentation in Trainingsdaten kommender Modellgenerationen. Für die meisten unserer Kunden empfehlen wir den umgekehrten Weg: alles erlauben, was Sichtbarkeit bringt, und stattdessen über Lizenzmodelle und Premium-Bereiche differenzieren.

Wichtig: Eine robots.txt ist keine Rechtsgrundlage, sondern ein Höflichkeitsmechanismus. Seriöse Anbieter halten sich daran, weniger seriöse nicht. Wer Inhalte rechtssicher schützen will, braucht zusätzlich technische Maßnahmen wie IP-Sperren, Rate Limits und vor allem klare Lizenz- und Nutzungsbedingungen. Trotzdem bleibt die robots.txt das wichtigste deklarative Steuerungsinstrument für die KI-Welt. Sie sollte deshalb niemals als statische Datei behandelt, sondern regelmäßig — wir empfehlen quartalsweise — überprüft und aktualisiert werden. Neue Bots tauchen auf, alte verschwinden, und manche Anbieter ändern ihre User-Agent-Bezeichnungen leise im Hintergrund.

Linkbuilding und robots.txt: ein unterschätztes Duo

Hier kommt ein Aspekt ins Spiel, der in den meisten robots.txt-Diskussionen übergangen wird: Eine offene robots.txt entfaltet ihre volle Wirkung erst dann, wenn Ihre Domain auch von außen wahrgenommen wird. KI-Crawler folgen Link-Spuren genauso wie Googlebot. Eine perfekt konfigurierte robots.txt auf einer Domain ohne Backlinks wird nur selten besucht. Eine offene robots.txt auf einer Domain mit starkem, themenrelevantem Backlink-Profil dagegen wird zur Goldgrube — KI-Crawler kommen häufig vorbei, indexieren aktuelle Inhalte zügig und zitieren Ihre Marke in den entstehenden Antworten.

Daraus folgt eine pragmatische Reihenfolge: Erst die robots.txt für KI öffnen, dann das Linkprofil systematisch ausbauen, dann die Effekte über die Reference Rate messen. Wer beide Hebel kombiniert, sieht innerhalb weniger Monate deutliche Verschiebungen in der KI-Sichtbarkeit. Wer nur einen der beiden Hebel zieht, verschenkt einen Großteil des Potenzials. Ein gut konfigurierter robots.txt-Eintrag kostet Sie zehn Minuten Arbeit, ein systematisch gewachsenes Backlink-Profil ist die Investition mehrerer Quartale — aber gemeinsam bilden beide das Fundament, auf dem Marken in den kommenden Jahren ihre KI-Sichtbarkeit aufbauen werden.

performanceLiebe prüft Ihre robots.txt, identifiziert blockierende Konfigurationen und entwickelt eine Linkbuilding-Strategie, die Ihre KI-Sichtbarkeit messbar steigert.

robots.txt jetzt prüfen lassen