Crawling
Der Vorgang, mit dem Suchmaschinen wie Google Website-Inhalte erfassen, wird als „Crawling“ bezeichnet. Bei Google kommt dazu der Googlebot zum Einsatz, der bei seinem Weg durchs Internet Links folgt, und die so zu einzelnen Websites aggregierten Daten an den Google-Index sendet. Verschiedene Probleme auf einer Internetseite können dazu führen, dass der Googlebot diese gar nicht oder nur teilweise crawlen kann. Unter dem Menüpunkt „Crawling“ bietet die Google Search Console unter anderem eine Funktion, mit der sich solche Crawling-Fehler eruieren lassen. Auch detaillierte Crawling-Statistiken lassen sich in der Search Console abrufen.
Crawling-Fehler
Bei den Crawling-Fehlern unterscheidet Google zwischen Fehlern, die die gesamte Website (Website-Fehler) oder nur einzelne URLs (URL-Fehler) betreffen. Website-Fehler führen dazu, dass dem Googlebot der Zugriff auf die gesamte Seite verweigert wurde. Drei Ursachen zieht Google für ein solches Szenario in Betracht:
- DNS-Fehler
Dieser Fehler zeigt an, dass der Googlebot nicht mit dem DNS-Server kommunizieren kann.
- Serverfehler
In diesem Fall ist der Googlebot gezwungen, seine Anfrage abzubrechen, beispielsweise weil der Server zu langsam reagiert.
- txt-Fehler
Bevor der Googlebot mit dem Crawling einer Seite beginnt, greift er zunächst auf deren robots.txt-Datei zu. Ist dieser Zugriff nicht möglich, verschiebt Google das Crawling.
Die URL-Fehler beziehen sich auf einzelne Unterseiten einer Domain auf Desktop-PCs, Smartphones oder Feature-Phones. Mögliche Fehlerarten sind hier:
- Nicht gefunden
Der Statuscode 404 (nicht gefunden) wird dann zurückgegeben, wenn ein Nutzer bzw. der Googlebot versucht, auf eine Seite zuzugreifen, die nicht (mehr) existiert.
- Soft 404-Fehler
Dieser Fehler tritt auf, wenn der Server eine Seite für eine URL zurückgibt, die auf der Website gar nicht vorhanden ist.
- Nicht gefolgt
Von diesem Fehler sind URLs betroffen, deren Pfaden der Googlebot nicht vollständig folgen konnte.
- Zugriff verweigert
Auf Webseiten, die eine Anmeldung oder Authenfizierung benötigen, kann der Googlebot ebenso wenig zugreifen wie auf Seiten, bei denen ihm die robots.txt den Zugriff verweigert.
- Serverfehler
Ein Serverfehler wird angezeigt, wenn der Googlebot eine Serveranfrage aufgrund einer Zeitüberschreitung abbrechen musste.

Unterhalb des Diagramms, in dem die Entwicklung der Anzahl der einzelnen URL-Fehler über einen Zeitraum von 90 Tagen dargestellt wird, findet man eine Übersicht der ersten 1.000 URLs, die von dem ausgewählten Fehler betroffen sind. Zudem wird dort angegeben, wann dieser Fehler erkannt wurde. Durch einen Klick auf eine der URLs erhält man nähere Informationen.
Crawling-Statistiken
Die Crawling-Statistiken in der Search Console geben Aufschluss darüber, wie viele Seiten Google auf der untersuchten Domain innerhalb der letzten 90 Tage maximal, durchschnittlich und minimal pro Tag gecrawlt hat, wie viele Kilobytes dabei herunter geladen wurden und wie lange das Herunterladen einer Seite dauerte. Schwankungen sind dabei normal. Nur bei extremen Einbrüchen sollte man den Ursachen auf den Grund gehen.