Crawling & Indexierung

Crawling & Indexierung bezeichnet den zweistufigen Prozess, durch den Suchmaschinen wie Google Webseiten automatisch entdecken, analysieren und in ihrer Datenbank (dem Index) speichern, um sie später für Suchanfragen abrufen zu können.

Was ist Crawling & Indexierung?

Bevor eine Webseite in den Suchergebnissen erscheinen kann, muss sie zwei grundlegende Prozesse durchlaufen: Zunächst wird sie von einem Crawler (auch Spider oder Bot genannt) gefunden und gelesen, das ist das Crawling. Anschließend werden die gesammelten Informationen verarbeitet und in den Suchmaschinenindex aufgenommen, das ist die Indexierung.

Google setzt für diesen Prozess primär den Googlebot ein, der kontinuierlich das Web nach neuen und aktualisierten Inhalten durchsucht. Ohne erfolgreiche Indexierung kann eine Seite nicht ranken, sie existiert für die Suchmaschine schlicht nicht.

Erklärung

Phase 1: URL-Entdeckung

Der Googlebot entdeckt neue URLs über verschiedene Wege:

Sitemaps: XML-Sitemaps, die direkt in der Google Search Console eingereicht werden
Interne und externe Links: Bereits bekannte Seiten werden auf neue Verlinkungen untersucht
Direktes Einreichen: Über die URL-Prüfung in der Search Console

Phase 2: Crawling

Der Bot lädt die Seite herunter und analysiert HTML, JavaScript und CSS. Wichtig: Google verwendet seit 2019 standardmäßig den Mobile-First-Ansatz, d.h. die Mobile-Version der Seite wird priorisiert gecrawlt (Google Search Central, 2019).

Das Crawl-Budget bezeichnet die Anzahl der Seiten, die Google innerhalb eines bestimmten Zeitraums auf einer Domain crawlt. Dieses Budget wird von Faktoren wie Servergeschwindigkeit, Seitenqualität und Duplicate Content beeinflusst.

Phase 3: Rendering

Nach dem Download rendert Google die Seite, um JavaScript-generierten Inhalt zu verarbeiten. Dieser Schritt kann zeitverzögert stattfinden, manchmal Stunden oder Tage nach dem ersten Crawl.

Phase 4: Indexierung

Gerenderte Seiten werden analysiert und, wenn keine technischen Hindernisse vorliegen, in den Index aufgenommen. Nicht jede gecrawlte Seite wird auch indexiert: Dünner Content, Duplicate Content oder explizite Noindex-Direktiven verhindern die Aufnahme.

Beispiele

Sitemap-Einreichung: Eine neue Website mit 200 Produktseiten reicht eine XML-Sitemap in der Google Search Console ein. Googlebot priorisiert diese URLs beim nächsten Crawl-Durchgang.

Crawl-Budget-Problem: Ein Online-Shop mit 50.000 Produktseiten und vielen Filterkombinationen (Farbe, Größe, Preis) erzeugt Millionen von URL-Varianten. Ohne technische Maßnahmen (kanonische URLs, robots.txt) wird das Crawl-Budget für wertlose Filterseiten verschwendet.

Rendering-Verzögerung: Eine React-SPA (Single Page Application), die Inhalte komplett via JavaScript lädt, kann erst nach dem Rendering von Google erfasst werden, was die Indexierung um Tage verzögern kann.

In der Praxis

robots.txt richtig einsetzen

Die Datei robots.txt im Root-Verzeichnis einer Domain steuert, welche Bereiche gecrawlt werden dürfen. Typische Direktiven:

`` User-agent: * Disallow: /admin/ Disallow: /cart/ Allow: / ``

Achtung: robots.txt verhindert das Crawling, aber nicht zwingend die Indexierung. Für Letzteres sind Noindex-Tags oder kanonische URLs notwendig.

XML-Sitemap optimieren

Eine gute XML-Sitemap enthält:

Nur indexierbare Seiten (kein noindex, keine 301-Redirects)
Korrekte <lastmod>-Angaben
Maximal 50.000 URLs pro Datei

Search Console als Diagnose-Tool

Die Google Search Console zeigt unter „Abdeckung", welche Seiten indexiert sind und welche aus welchem Grund nicht indexiert wurden. Häufige Statusmeldungen:

„Gecrawlt, derzeit nicht indexiert": Seite wurde gefunden, aber als nicht wertvoll eingestuft
„Entdeckt, derzeit nicht gecrawlt": URL bekannt, aber noch nicht besucht
„Ausgeschlossen durch noindex-Tag": Korrekte Funktionsweise des Noindex-Tags

Vergleich & Abgrenzung

Aspekt	Crawling	Indexierung
Zweck	Entdecken & Herunterladen	Speichern & Kategorisieren
Tool	Googlebot	Google Index
Steuerung	robots.txt, Crawl-Rate	noindex, kanonische URLs
Einfluss auf Ranking	Indirekt	Direkte Voraussetzung

Crawling ≠ Indexierung: Eine Seite kann gecrawlt, aber nicht indexiert werden. Umgekehrt kann eine nicht mehr gecrawlte Seite kurzzeitig noch im Index verbleiben.

Häufige Fragen (FAQ)

Wie lange dauert es, bis eine neue Seite indexiert wird? Das variiert stark, von wenigen Stunden bei starken Domains bis zu mehreren Wochen bei neuen Websites. Die Einreichung über die Search Console beschleunigt den Prozess.

Kann ich einzelne Seiten aus dem Index entfernen? Ja, über das Noindex-Meta-Tag (<meta name="robots" content="noindex">) oder den URL-Entfernungstool in der Search Console (temporär).

Was ist Crawl-Budget und wie kann ich es schonen? Das Crawl-Budget sollte durch Vermeidung von Duplicate Content, saubere interne Verlinkung und schnelle Serverantwortzeiten optimiert werden. Filter-URLs sollten via robots.txt oder noindex ausgeschlossen werden.

Indexiert Google wirklich alle meine Seiten? Nein. Google indexiert selektiv, Seiten mit dünnem Content, mangelnder Einzigartigkeit oder zu wenigen Verlinkungen werden möglicherweise nicht aufgenommen.

Weiterführend

Google Search Central: „How Google Search Works", developers.google.com/search/docs/fundamentals/how-search-works (2024)
Google Search Central: „Control what you share with Google", developers.google.com/search/docs/crawling-indexing (2024)
Sistrix: „Crawl-Budget, Was ist das und wie optimiere ich es?", sistrix.de/news/crawl-budget (2023)
Martin Splitt (Google): „JavaScript SEO", Google I/O Keynote (2019)

Was ist Crawling & Indexierung?

Erklärung

Phase 1: URL-Entdeckung

Phase 2: Crawling

Phase 3: Rendering

Phase 4: Indexierung

Beispiele

In der Praxis

robots.txt richtig einsetzen

XML-Sitemap optimieren

Search Console als Diagnose-Tool

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Crawling & Indexierung

Was ist Crawling & Indexierung?

Erklärung

Phase 1: URL-Entdeckung

Phase 2: Crawling

Phase 3: Rendering

Phase 4: Indexierung

Beispiele

In der Praxis

robots.txt richtig einsetzen

XML-Sitemap optimieren

Search Console als Diagnose-Tool

Vergleich & Abgrenzung

Häufige Fragen (FAQ)

Verwandte Einträge

Weiterführend

Sei am Mittwoch dabei.Bring Eltern oder Freunde mit.

Platz beim Infotag reservieren

Sei am Mittwoch dabei.
Bring Eltern oder Freunde mit.