Crawler & Webcrawler: Was sie tun und wie sie arbeiten

Q: Wie sehe ich, wie oft Googlebot meine Seite crawlt?

Die Google Search Console zeigt das Crawl-Verhalten unter `Einstellungen → Crawl-Statistiken`. Der Bericht enthält die Anzahl Crawl-Anfragen pro Tag, die durchschnittliche Antwortzeit und die Verteilung der HTTP-Statuscodes (200, 3xx, 4xx, 5xx) der letzten 90 Tage. Auffällige Spitzen bei 5xx-Antworten oder ein abrupter Rückgang der Crawl-Anfragen sind erste Warnsignale für Server-Probleme oder eine zu strenge robots.txt.

Ohne Crawl-Vorgang gibt es keine Indexierung, ohne Indexierung kein Ranking; das Crawl-Verhalten entscheidet bei jedem B2B-Relaunch darüber, ob mehrere tausend Produkt-URLs überhaupt im Google-Index landen. Gemeint ist hier der Webcrawler, das Programm, mit dem Suchmaschinen das Web durchsuchen, nicht das gleichnamige Off-Road-Modellfahrzeug.

Seit 2023 hat sich das Spielfeld erweitert: KI-Anbieter wie OpenAI, Anthropic und Perplexity schicken eigene Crawler durch das Web, die unabhängig von Googlebot eigene User-Agent-Strings tragen und separat gesteuert werden müssen.

Was ist ein Crawler?

Ein Crawler ist ein Computerprogramm, das Webseiten automatisiert über Hyperlinks abruft, ihre Inhalte ausliest und an eine nachgelagerte Verarbeitung übergibt. Das kann eine Suchmaschinen-Indexierung sein (Googlebot, Bingbot), eine technische Analyse (Screaming Frog, Sitebulb), ein KI-Trainingssystem (GPTBot, ClaudeBot) oder ein gezieltes Daten-Sammelprojekt. Der Begriff stammt aus dem englischen to crawl (krabbeln, durchsuchen) und wird synonym mit Spider oder Bot verwendet, wobei Bot der weitere Oberbegriff ist.

Der erste dokumentierte Webcrawler war der World Wide Web Wanderer, den der MIT-Student Matthew Gray 1993 entwickelte; das namensgebende Programm WebCrawler folgte 1994 von Brian Pinkerton an der University of Washington. Das verbindliche Steuerungsprotokoll, der Robots Exclusion Standard, ist seit September 2022 als RFC 9309 ein offizieller Internet-Standard der IETF.

Wie funktioniert ein Crawler?

Ein Crawler startet mit einer Liste bekannter URLs, den Seed-URLs. Diese stammen typischerweise aus einer Sitemap, aus dem bisherigen Index der Suchmaschine oder aus einer manuell hinterlegten Start-Liste. Für jede URL führt der Crawler vier Schritte aus: robots.txt-Prüfung, HTTP-Anfrage, Inhalts-Auswertung, Link-Extraktion.

robots.txt-Prüfung: Vor dem ersten Abruf einer Domain lädt der Crawler https://domain.tld/robots.txt und prüft, welche Pfade er anfragen darf.
HTTP-Anfrage: Erlaubte URLs ruft der Crawler per HTTP ab und liest den HTTP-Statuscode der Server-Antwort. Bei 2xx verarbeitet er den Inhalt, bei 3xx folgt er dem Location:-Header, bei 4xx markiert er die URL als nicht abrufbar, bei 5xx versucht er es später erneut.
Inhalts-Auswertung: Der HTML-Code wird geparst: Title, Meta-Description, strukturierte Daten und der reine Text werden extrahiert. Moderne Crawler wie Googlebot rendern auch JavaScript, was bei Single-Page-Anwendungen zu zeitversetztem Crawling führt.
Link-Extraktion: Alle internen und externen Links der Seite landen in der Frontier, einer priorisierten Warteschlange neuer URLs. Die Frontier wird kontinuierlich abgearbeitet; so durchwandert der Crawler das Web in einem rekursiven Verfahren.

Die Geschwindigkeit dieses Prozesses ist nicht konstant. Googlebot passt seine Crawl-Frequenz dynamisch an die Server-Antwortzeit, das Crawl-Budget der Domain und die Aktualisierungsrate der Inhalte an. Bei einem Maschinenbau-Hersteller mit selten geänderten Produktdaten fällt die Frequenz niedriger aus als bei einem News-Portal mit stündlich neuen Artikeln.

Welche Arten von Crawlern gibt es?

Crawler lassen sich in vier Hauptkategorien einteilen, die sich in Zweck, Anbieter und SEO-Relevanz deutlich unterscheiden.

(1) Suchmaschinen-Crawler: Googlebot (Google), Bingbot (Microsoft Bing), DuckDuckBot (DuckDuckGo) und Yandexbot (Yandex) sammeln Inhalte für ihre jeweiligen Suchindizes. Ihre Crawl-Aktivität wirkt direkt auf die organische Sichtbarkeit; ihre User-Agent-Strings sind öffentlich dokumentiert und über IP-Reverse-DNS verifizierbar.

(2) Tool-Crawler: Screaming Frog, Sitebulb, Lumar (ehemals DeepCrawl) und AhrefsBot/SemrushBot crawlen Websites für SEO-Analysen. Sie kommen entweder lokal (Screaming Frog auf einem Operator-Rechner) oder als SaaS (Ahrefs, Semrush) zum Einsatz und liefern technische Audits, Backlink-Profile oder Content-Inventare.

(3) KI-Crawler: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity) und Google-Extended (Google AI) sind seit 2023 bzw. 2024 dokumentiert und sammeln Inhalte für KI-Trainings und KI-gestützte Antworten. Wer in AI Overviews oder ChatGPT-Antworten zitiert werden will, muss diesen Crawlern Zugriff gewähren. Sperre und Sichtbarkeit sind hier zwei Seiten derselben Entscheidung.

(4) Bösartige Crawler: E-Mail-Harvester, Content-Scraper und Vulnerability-Scanner ignorieren typischerweise die robots.txt und betreiben Daten-Diebstahl, Spam-Vorbereitung oder Sicherheits-Probing. Ihre Steuerung erfolgt nicht über robots.txt, sondern über IP-Blocking, Web Application Firewalls und Bot-Detection-Systeme.

Crawler ist nicht Crawling ist nicht Bot ist nicht Spider ist nicht Scraper

Im Mittelstand werden die fünf Begriffe regelmäßig vertauscht; IT-Leiter und Marketing-Agentur reden bei Crawler oft über etwas anderes. Die Trennung ist die Grundlage jeder seriösen Audit-Diskussion:

Begriff	Was ist gemeint	SEO-Relevanz
Crawler	Das Programm (z.B. Googlebot)	Eingangsstufe der Indexierung
Crawling	Der Prozess, den ein Crawler ausführt	Voraussetzung für Indexierung;
Bot	Oberbegriff für jedes automatisierte Web-Programm	Kontext-abhängig (Crawler, Chat-Bot, Spam-Bot)
Spider	Englisch-deutsches Synonym für Crawler	Identisch zu Crawler
Scraper	Programm, das gezielt einzelne Datenpunkte sammelt	Selten erlaubt; meist gegen robots.txt

Crawler und SEO: Warum wichtig?

Das Crawl-Verhalten ist die Eingangsstufe jeder organischen Sichtbarkeit, und damit das oft übersehene Fundament jeder SEO-Strategie:

Ohne Crawl keine Indexierung, ohne Indexierung kein Ranking. Eine Seite, die der Crawler nicht abruft, kann nicht in den Google-Suchindex aufgenommen werden, egal wie gut der Content ist.
HTTP-Statuscodes steuern das Crawl-Verhalten direkt. Bei wiederholten 5xx-Antworten reduziert Googlebot die Crawl-Frequenz, dokumentiert in der Google Search Central; 4xx-Codes führen nach einigen Wiederholungen zur Deindexierung. Details zur Wirkung pro Code-Klasse: HTTP-Statuscode.
Crawl-Budget begrenzt die Tiefe großer Sites. Wer 50.000 Produktvarianten auf einer Domain hat und dem Crawler dieselbe Variante über 12 Filter-Parameter anbietet, verbrennt Budget auf duplizierten URLs; die wichtigen Seiten werden seltener besucht (Stichwort: Crawl-Budget).
Die meisten Agenturen steigen bei Keywords ein, ohne zu prüfen, ob Googlebot die Produkt-Datenblätter überhaupt erreicht. Eine Crawl-Diagnose vor der Content-Optimierung erspart dreistellige Stundensummen für Onpage-Arbeit auf Seiten, die nie indexiert werden.
KI-Crawler-Zugriff entscheidet über Sichtbarkeit in AI Overviews und ChatGPT. Eine pauschale Sperre aller Bots blockiert auch GPTBot und ClaudeBot, und damit jede Chance, in den entstehenden KI-Antwort-Surfaces zitiert zu werden.

Crawler in der Praxis: Steuerung und Einflussfaktoren

Crawler-Steuerung läuft über vier Hebel, von denen drei zur Standard-Hygiene jeder B2B-Site gehören sollten.

robots.txt: der Tür-Wächter

Die robots.txt liegt im Domain-Root (https://domain.tld/robots.txt) und definiert, welche Crawler welche Pfade abrufen dürfen. Seit RFC 9309 ist sie ein offizieller IETF-Standard mit klaren Parsing-Regeln. Ein typischer minimaler Block sieht so aus:

User-agent: *
Disallow: /intern/
Allow: /
Sitemap: https://domain.tld/sitemap.xml

Wichtig: Disallow verhindert das Crawling, nicht zwingend die Indexierung. Eine Seite, die intern verlinkt ist, kann trotz Disallow als URL-Eintrag im Index erscheinen, ohne Snippet, aber sichtbar. Wer wirklich aus dem Index fern halten will, nutzt zusätzlich den noindex-Meta-Tag oder einen X-Robots-Tag-HTTP-Header.

Wie kann man einen Crawler sperren?

Einzelne Crawler werden über ihren spezifischen User-Agent-String in der robots.txt blockiert. Beispiel: GPTBot vollständig sperren, Googlebot weiter zulassen:

User-agent: Googlebot
Allow: /

User-agent: GPTBot
Disallow: /

Die Reihenfolge der Blöcke ist dabei egal; Crawler matchen ihren eigenen User-Agent gegen jeden Block und folgen dem genauesten Treffer. Bei akuter Server-Last (z.B. unter DDoS-Verdacht) lässt sich Googlebot zusätzlich über die Google Search Console temporär drosseln; auf Server-Ebene blockieren IP-Sperren in der .htaccess oder einer Web Application Firewall jeden Bot, der den User-Agent fälscht.

Crawl-Statistiken in der Google Search Console

Der wichtigste Diagnose-Bericht zum Crawl-Verhalten ist kostenlos und steht in jedem Search-Console-Account zur Verfügung: Einstellungen → Crawl-Statistiken. Der Bericht zeigt für die letzten 90 Tage die Anzahl der Crawl-Anfragen pro Tag, die durchschnittliche Server-Antwortzeit und die Verteilung der HTTP-Statuscodes. Auffällig sind drei Muster: anhaltende 5xx-Spitzen (Server überlastet oder fehlerhaft), abrupter Rückgang der Crawl-Anfragen (robots.txt-Fehler oder Server-Block) und ein Anteil 4xx-Antworten über 10 Prozent (defekte Links, fehlerhafte Migrations-Redirects).

B2B-Szenario: Was nach einem Relaunch zu prüfen ist

Bei einem typischen Industrie-Relaunch mit 1.200 technischen Datenblättern und einer neuen URL-Struktur wechseln Sichtbarkeit und Crawl-Verhalten innerhalb von Tagen. Der erste Diagnose-Schritt nach dem Go-Live ist deshalb die Crawl-Statistiken-Kurve: Bleibt die Anzahl der täglichen Crawl-Anfragen stabil, läuft der Übergang sauber. Fällt sie deutlich ab, liegt meist ein robots.txt-Fehler vor; oft hat ein vergessener Disallow: / aus der Staging-Umgebung den Sprung ins Produktiv-System geschafft.

KI-Crawler: Steuern, ohne Google-Sichtbarkeit zu verlieren

Seit 2023 senden die großen KI-Anbieter eigene Crawler durchs Web, die unabhängig von Googlebot operieren. Ihre Steuerung ist eine eigene strategische Entscheidung: Wer komplett blockt, schließt sich aus den entstehenden AI-Citation-Surfaces aus; wer pauschal zulässt, gibt Trainingsdaten ohne Gegenleistung ab. Eine differenzierte robots.txt erlaubt Suchmaschinen-Crawl, sperrt aber gezieltes KI-Training:

User-Agent	Anbieter	Zweck	robots.txt-Empfehlung
`Googlebot`	Google	Such-Index	`Allow: /`
`GPTBot`	OpenAI	ChatGPT-Training	individuell entscheiden
`ClaudeBot`	Anthropic	Claude-Training	individuell entscheiden
`PerplexityBot`	Perplexity AI	KI-Antworten + Zitate	meist erlauben (Citation-Quelle)
`Google-Extended`	Google AI	Gemini-Training	unabhängig von Googlebot

Google-Extended ist dabei der wichtigste Sonderfall: Es steuert ausschließlich das Training von Google-Gemini, nicht den regulären Such-Index. Wer Google-Extended sperrt, bleibt unverändert in der Google-Suche sichtbar, verzichtet aber auf den Beitrag zu Gemini-Antworten. Diese Trennung ist explizit von Google dokumentiert und gilt seit September 2023.

Fazit & Takeaways

Crawler sind die Eingangsstufe der Indexierung. Wer Onpage-SEO ohne Crawl-Diagnose betreibt, optimiert auf gut Glück; die Crawl-Statistiken in der Search Console sind kostenlos und liefern den Realitäts-Abgleich.
Die fünf Begriffe Crawler, Crawling, Bot, Spider und Scraper sind nicht beliebig austauschbar. Vor jedem Audit-Gespräch klären, welcher Begriff in welcher Bedeutung gebraucht wird, sonst reden IT und Marketing 30 Minuten aneinander vorbei.
robots.txt ist seit RFC 9309 ein offizieller Internet-Standard. Ein klarer User-Agent-Block für Googlebot und einer für GPTBot/ClaudeBot ist die Mindest-Hygiene jeder B2B-Site ab 2026.
Nach jedem Relaunch die Crawl-Anfragen-Kurve in der Search Console prüfen. Fällt sie deutlich ab, ist die robots.txt der erste Verdacht.
Google-Extended ≠ Googlebot. Wer KI-Training blocken will, ohne aus der Such-Sichtbarkeit zu fallen, sperrt nur Google-Extended und lässt Googlebot zu.

Häufige Fragen (FAQ)

Was ist ein Crawler?

Ein Crawler ist ein Computerprogramm, das Webseiten automatisiert über Hyperlinks abruft und ihre Inhalte ausliest. Suchmaschinen wie Google nutzen Crawler (Googlebot), um das Web für die Indexierung zu erfassen. Tools wie Screaming Frog oder Sitebulb crawlen Websites zu Analyse-Zwecken; KI-Anbieter wie OpenAI (GPTBot) oder Anthropic (ClaudeBot) crawlen Inhalte, um Sprachmodelle zu trainieren. Das verbindliche Steuerungsprotokoll für alle Crawler ist seit September 2022 RFC 9309.

Wie funktioniert ein Crawler technisch?

Ein Crawler startet mit einer Liste bekannter URLs (Seed-URLs), ruft jede über HTTP ab, parst die Antwort und extrahiert alle enthaltenen Links. Die neuen URLs landen in einer Warteschlange (Frontier), die der Crawler nach Priorität abarbeitet. Vor jedem Abruf prüft der Crawler die robots.txt der Domain, ob er die URL überhaupt anfragen darf. Die Crawl-Frequenz richtet sich nach Server-Antwortzeit, Crawl-Budget und der Update-Häufigkeit der Site.

Welche Arten von Crawlern gibt es?

Crawler lassen sich in vier Hauptkategorien einteilen: (1) Suchmaschinen-Crawler wie Googlebot, Bingbot oder DuckDuckBot, deren Output in den Suchindex fließt; (2) Tool-Crawler wie Screaming Frog, Sitebulb oder AhrefsBot, die Websites für SEO-Analysen erfassen; (3) KI-Crawler wie GPTBot, ClaudeBot oder PerplexityBot, die Inhalte für Sprachmodelle und KI-Antworten sammeln; (4) bösartige Crawler wie E-Mail-Harvester oder Content-Scraper, die typischerweise gegen die robots.txt verstoßen.

Wie kann man einen Crawler sperren?

Crawler werden über die Datei robots.txt im Domain-Root gesteuert. Eine Direktive wie User-agent: GPTBot gefolgt von Disallow: / blockiert exakt einen Crawler, während Googlebot weiterhin crawlen darf. Die robots.txt ist seit RFC 9309 ein offizieller Internet-Standard. Ergänzend lassen sich Crawler über IP-Sperren auf Server-Ebene oder über die Suchmaschinen-Tools (Google Search Console, Bing Webmaster Tools) bei akuter Server-Last temporär drosseln.

Was ist der Unterschied zwischen Crawler, Spider und Bot?

Spider ist ein deutsch-englisches Synonym für Webcrawler; beide Begriffe bezeichnen dasselbe Programm, das Webseiten über Hyperlinks abruft. Bot (kurz für Robot) ist der Oberbegriff für jedes automatisierte Programm im Web; ein Crawler ist eine Bot-Unterart. Crawling bezeichnet wiederum den Prozess, den ein Crawler ausführt; ein Scraper sammelt gezielt einzelne Datenpunkte für externe Verwendung.

Wie sehe ich, wie oft Googlebot meine Seite crawlt?

Die Google Search Console zeigt das Crawl-Verhalten unter Einstellungen → Crawl-Statistiken. Der Bericht enthält die Anzahl Crawl-Anfragen pro Tag, die durchschnittliche Antwortzeit und die Verteilung der HTTP-Statuscodes (200, 3xx, 4xx, 5xx) der letzten 90 Tage. Auffällige Spitzen bei 5xx-Antworten oder ein abrupter Rückgang der Crawl-Anfragen sind erste Warnsignale für Server-Probleme oder eine zu strenge robots.txt.

Wie blockiere ich GPTBot, ohne Google zu blockieren?

In der robots.txt im Domain-Root wird ein eigener Block für GPTBot ergänzt: User-agent: GPTBot gefolgt von Disallow: /. Googlebot bleibt durch seinen separaten User-Agent-Block unberührt. OpenAI dokumentiert den User-Agent-String und respektiert die robots.txt; analog steuern sich ClaudeBot (Anthropic), PerplexityBot (Perplexity) und Google-Extended (Google AI). Wichtig: Google-Extended steuert nur Gemini-Training, nicht Googlebot. Wer Google-Extended sperrt, bleibt im Such-Index.

Crawler & Webcrawler: Definition und SEO-Funktion

Was ist ein Crawler?

Wie funktioniert ein Crawler?

Welche Arten von Crawlern gibt es?

Crawler ist nicht Crawling ist nicht Bot ist nicht Spider ist nicht Scraper

Crawler und SEO: Warum wichtig?

Crawler in der Praxis: Steuerung und Einflussfaktoren

robots.txt: der Tür-Wächter

Wie kann man einen Crawler sperren?

Crawl-Statistiken in der Google Search Console

B2B-Szenario: Was nach einem Relaunch zu prüfen ist

KI-Crawler: Steuern, ohne Google-Sichtbarkeit zu verlieren

Fazit & Takeaways

Verwandte Begriffe

Häufige Fragen (FAQ)

Was ist ein Crawler?

Wie funktioniert ein Crawler technisch?

Welche Arten von Crawlern gibt es?

Wie kann man einen Crawler sperren?

Was ist der Unterschied zwischen Crawler, Spider und Bot?

Wie sehe ich, wie oft Googlebot meine Seite crawlt?

Wie blockiere ich GPTBot, ohne Google zu blockieren?

Weitere Begriffe aus dem Lexikon

Core Web Vitals

HTTP-Statuscode

302-Weiterleitung

Von der Definition zur konkreten Umsetzung.