Crawling & Indexierung bezeichnet den zweistufigen Prozess, durch den Suchmaschinen wie Google Webseiten automatisch entdecken, analysieren und in ihrer Datenbank (dem Index) speichern, um sie später für Suchanfragen abrufen zu können.
Was ist Crawling & Indexierung?
Bevor eine Webseite in den Suchergebnissen erscheinen kann, muss sie zwei grundlegende Prozesse durchlaufen: Zunächst wird sie von einem Crawler (auch Spider oder Bot genannt) gefunden und gelesen – das ist das Crawling. Anschließend werden die gesammelten Informationen verarbeitet und in den Suchmaschinenindex aufgenommen – das ist die Indexierung.
Google setzt für diesen Prozess primär den Googlebot ein, der kontinuierlich das Web nach neuen und aktualisierten Inhalten durchsucht. Ohne erfolgreiche Indexierung kann eine Seite nicht ranken – sie existiert für die Suchmaschine schlicht nicht.
Erklärung
Phase 1: URL-Entdeckung
Der Googlebot entdeckt neue URLs über verschiedene Wege:
- Sitemaps: XML-Sitemaps, die direkt in der Google Search Console eingereicht werden
- Interne und externe Links: Bereits bekannte Seiten werden auf neue Verlinkungen untersucht
- Direktes Einreichen: Über die URL-Prüfung in der Search Console
Phase 2: Crawling
Der Bot lädt die Seite herunter und analysiert HTML, JavaScript und CSS. Wichtig: Google verwendet seit 2019 standardmäßig den Mobile-First-Ansatz, d.h. die Mobile-Version der Seite wird priorisiert gecrawlt (Google Search Central, 2019).
Das Crawl-Budget bezeichnet die Anzahl der Seiten, die Google innerhalb eines bestimmten Zeitraums auf einer Domain crawlt. Dieses Budget wird von Faktoren wie Servergeschwindigkeit, Seitenqualität und Duplicate Content beeinflusst.
Phase 3: Rendering
Nach dem Download rendert Google die Seite, um JavaScript-generierten Inhalt zu verarbeiten. Dieser Schritt kann zeitverzögert stattfinden – manchmal Stunden oder Tage nach dem ersten Crawl.
Phase 4: Indexierung
Gerenderte Seiten werden analysiert und – wenn keine technischen Hindernisse vorliegen – in den Index aufgenommen. Nicht jede gecrawlte Seite wird auch indexiert: Dünner Content, Duplicate Content oder explizite Noindex-Direktiven verhindern die Aufnahme.
Beispiele
Sitemap-Einreichung: Eine neue Website mit 200 Produktseiten reicht eine XML-Sitemap in der Google Search Console ein. Googlebot priorisiert diese URLs beim nächsten Crawl-Durchgang.
Crawl-Budget-Problem: Ein Online-Shop mit 50.000 Produktseiten und vielen Filterkombinationen (Farbe, Größe, Preis) erzeugt Millionen von URL-Varianten. Ohne technische Maßnahmen (kanonische URLs, robots.txt) wird das Crawl-Budget für wertlose Filterseiten verschwendet.
Rendering-Verzögerung: Eine React-SPA (Single Page Application), die Inhalte komplett via JavaScript lädt, kann erst nach dem Rendering von Google erfasst werden – was die Indexierung um Tage verzögern kann.
In der Praxis
robots.txt richtig einsetzen
Die Datei robots.txt im Root-Verzeichnis einer Domain steuert, welche Bereiche gecrawlt werden dürfen. Typische Direktiven:
`` User-agent: * Disallow: /admin/ Disallow: /cart/ Allow: / ``
Achtung: robots.txt verhindert das Crawling, aber nicht zwingend die Indexierung. Für Letzteres sind Noindex-Tags oder kanonische URLs notwendig.
XML-Sitemap optimieren
Eine gute XML-Sitemap enthält:
- Nur indexierbare Seiten (kein noindex, keine 301-Redirects)
- Korrekte
<lastmod>-Angaben - Maximal 50.000 URLs pro Datei
Search Console als Diagnose-Tool
Die Google Search Console zeigt unter „Abdeckung", welche Seiten indexiert sind und welche aus welchem Grund nicht indexiert wurden. Häufige Statusmeldungen:
- „Gecrawlt, derzeit nicht indexiert": Seite wurde gefunden, aber als nicht wertvoll eingestuft
- „Entdeckt, derzeit nicht gecrawlt": URL bekannt, aber noch nicht besucht
- „Ausgeschlossen durch noindex-Tag": Korrekte Funktionsweise des Noindex-Tags
Vergleich & Abgrenzung
| Aspekt | Crawling | Indexierung |
|---|---|---|
| Zweck | Entdecken & Herunterladen | Speichern & Kategorisieren |
| Tool | Googlebot | Google Index |
| Steuerung | robots.txt, Crawl-Rate | noindex, kanonische URLs |
| Einfluss auf Ranking | Indirekt | Direkte Voraussetzung |
Crawling ≠ Indexierung: Eine Seite kann gecrawlt, aber nicht indexiert werden. Umgekehrt kann eine nicht mehr gecrawlte Seite kurzzeitig noch im Index verbleiben.
Häufige Fragen (FAQ)
Wie lange dauert es, bis eine neue Seite indexiert wird? Das variiert stark – von wenigen Stunden bei starken Domains bis zu mehreren Wochen bei neuen Websites. Die Einreichung über die Search Console beschleunigt den Prozess.
Kann ich einzelne Seiten aus dem Index entfernen? Ja, über das Noindex-Meta-Tag (<meta name="robots" content="noindex">) oder den URL-Entfernungstool in der Search Console (temporär).
Was ist Crawl-Budget und wie kann ich es schonen? Das Crawl-Budget sollte durch Vermeidung von Duplicate Content, saubere interne Verlinkung und schnelle Serverantwortzeiten optimiert werden. Filter-URLs sollten via robots.txt oder noindex ausgeschlossen werden.
Indexiert Google wirklich alle meine Seiten? Nein. Google indexiert selektiv – Seiten mit dünnem Content, mangelnder Einzigartigkeit oder zu wenigen Verlinkungen werden möglicherweise nicht aufgenommen.
Verwandte Einträge
- Technisches SEO
- Seitenstruktur & URL-Architektur
- Meta-Tags (Title, Description, Robots)
- Core Web Vitals
- Interne Verlinkung
Weiterführend
- Google Search Central: „How Google Search Works" – developers.google.com/search/docs/fundamentals/how-search-works (2024)
- Google Search Central: „Control what you share with Google" – developers.google.com/search/docs/crawling-indexing (2024)
- Sistrix: „Crawl-Budget – Was ist das und wie optimiere ich es?" – sistrix.de/news/crawl-budget (2023)
- Martin Splitt (Google): „JavaScript SEO" – Google I/O Keynote (2019)
