Die Google Suche ist eine vollautomatische Suchmaschine, in der sogenannte Web-Crawler-Software verwendet wird. Diese durchsucht das Web regelmäßig, um Seiten zu ermitteln, die unserem Index hinzugefügt werden sollen. Die überwiegende Mehrzahl der in unseren Ergebnissen aufgeführten Seiten wird nicht manuell zur Aufnahme eingereicht, sondern automatisch erkannt und hinzugefügt, wenn wir das Web durchsuchen. In diesem Dokument wird beschrieben, wie die Google Suche im Kontext deiner Website funktioniert. Mit diesem Wissen kannst du Crawling-Probleme beheben, deine Seiten indexieren lassen und die Darstellung deiner Website in der Google Suche optimieren.
Die drei Phasen der Google Suche
Die Google Suche hat drei Phasen, die jedoch nicht alle Seiten durchlaufen:
- Crawling: Google lädt Text, Bilder und Videos von im Internet gefundenen Seiten mit automatischen Programmen herunter – diese werden Crawler genannt.
- Indexierung: Google analysiert die Text-, Bild- und Videodateien auf der Seite und speichert die Informationen in einer großen Datenbank, dem Google-Index.
- Bereitstellung von Suchergebnissen: Wenn ein Nutzer eine Suchanfrage eingibt, gibt Google Informationen zurück, die für die Suchanfrage des Nutzers relevant sind.
Crawling
Im ersten Schritt wird festgestellt, welche Seiten im Web existieren. Es gibt kein zentrales Verzeichnis aller Webseiten. Deshalb muss Google laufend nach neuen und aktualisierten Seiten suchen und sie seiner Liste bekannter Seiten hinzufügen. Dieser Vorgang wird als „URL-Erkennung“ bezeichnet. Einige Seiten sind bekannt, da sie schon zuvor von Google aufgerufen wurden. Andere werden entdeckt, wenn Google einem Link von einer bekannten Seite folgt, der auf eine neue verweist. Das können beispielsweise eine Hub-Seite wie eine Kategorieseite oder Links zu einem neuen Blogpost sein. Wieder andere Seiten werden gefunden, wenn du eine Liste von Seiten – eine sogenannte Sitemap – einreichst, damit sie von Google gecrawlt wird.
Sobald Google die URL einer Seite erkennt, kann der Crawler die Seite aufrufen (oder „crawlen“), um den Inhalt der Seite zu ermitteln. Wir setzen unzählige Computer ein, die täglich Milliarden von Webseiten crawlen. Das Programm, das diese Seiten durchsucht, heißt Googlebot. Andere Bezeichnungen für solche Programme sind „Crawler“, „Robot“, „Bot“ und „Spider“. Der Googlebot bestimmt anhand eines algorithmischen Prozesses, welche Websites wann und wie oft durchsucht und wie viele Seiten von jeder Website abgerufen werden. Die Google-Crawler sind so programmiert, dass sie die Website nicht zu schnell crawlen, um eine Überlastung zu vermeiden. Dieser Mechanismus basiert auf den Antworten der Website (z. B. signalisieren HTTP-500-Fehler dem Crawler, langsamer zu arbeiten) und den Einstellungen in der Search Console.
Der Googlebot crawlt jedoch nicht alle gefundenen Seiten. Es kann vorkommen, dass Websiteinhaber Seiten vom Crawling ausgeschlossen haben oder dass bestimmte Seiten ohne Anmeldung nicht zugänglich sind.
Während des Crawlings rendert Google die Seite und führt den ganzen gefundenen JavaScript-Code aus. Das Rendering findet ähnlich wie in deinem Browser mit einer aktuellen Version von Chrome statt. Das Rendering ist ein wichtiger Schritt, da Websites oft JavaScript verwenden, um Inhalte auf der Seite darzustellen. Ohne das Rendering kann Google diese Inhalte möglicherweise nicht sehen.
Das Crawling hängt davon ab, ob die Google-Crawler auf die Website zugreifen können. Häufige Probleme beim Zugriff auf Websites durch den Googlebot:
- Probleme mit dem Server, der die Website verarbeitet
- Netzwerkprobleme
- Robots.txt-Regeln, die den Zugriff des Googlebots auf die Seite verhindern
Indexierung
Nachdem eine Seite gecrawlt wurde, versucht Google zu verstehen, worum es auf der Seite geht. Diese Phase wird Indexierung genannt. Dazu gehört die Verarbeitung von Textinhalten, wichtigen Inhalts-Tags und Attributen wie <title>
-Elementen und ALT-Attributen, Bildern und Videos.
Während der Indexierung ermittelt Google, ob eine Seite ein Duplikat einer anderen Seite im Internet oder kanonisch ist. Die kanonische Seite ist die Seite, die in den Suchergebnissen angezeigt werden kann. Zur Auswahl der kanonischen Seite gruppieren wir zuerst die Seiten (auch Clustering genannt), die wir im Internet gefunden haben und die ähnliche Inhalte haben, in einem Cluster. Dann wählen wir die Seite aus, die den Cluster in den Suchergebnissen am besten repräsentiert. Die anderen Seiten der Gruppe sind alternative Versionen, die in unterschiedlichen Kontexten bereitgestellt werden können, z. B. wenn der Nutzer von einem Mobilgerät aus sucht oder nach einer bestimmten Seite dieses Clusters sucht.
Google erfasst auch Signale über die kanonische Seite und ihre Inhalte, die möglicherweise in der nächsten Phase verwendet werden, in der wir die Seite in den Suchergebnissen bereitstellen. Zu den Signalen gehören unter anderem die Sprache der Seite, das Land, aus dem die Inhalte stammen, und die Nutzerfreundlichkeit der Seite.
Die für die kanonische Seite und ihren Cluster erfassten Daten können im Google-Index gespeichert werden, einer großen Datenbank, die auf Tausenden von Computern gehostet wird. Die Indexierung wird nicht garantiert – es wird also nicht jede Seite, die von Google verarbeitet wird, indexiert.
Die Indexierung hängt auch vom Inhalt der Seite und ihren Metadaten ab. Beispiele für häufige Indexierungsprobleme:
- Die Qualität der Inhalte auf der Seite ist gering.
- Robots–
meta
-Regeln verhindern die Indexierung - Das Design der Website könnte die Indexierung erschweren
Bereitstellung von Suchergebnissen
Gibt ein Nutzer eine Suchanfrage ein, suchen unsere Maschinen im Index nach übereinstimmenden Seiten und geben die Ergebnisse zurück, die unserer Meinung nach am hochwertigsten und für die Suchanfrage des Nutzers am relevantesten sind. Die Relevanz wird von Hunderten von Faktoren bestimmt, wie etwa dem Standort, der Sprache und dem Gerät des Nutzers (Computer oder Smartphone). Beispielsweise erhält ein Nutzer in Paris, der nach „Fahrradwerkstatt“ sucht, andere Ergebnisse als ein Nutzer in Hongkong.
Je nach Suchanfrage des Nutzers ändern sich auch die Suchergebnis-Spezialformate, die auf der Suchergebnisseite angezeigt werden. Wenn Nutzer beispielsweise nach „Fahrradwerkstatt“ suchen, werden wahrscheinlich lokale Suchergebnisse angezeigt, keine Suchergebnisse von Google Bilder. Bei einer Suche nach „modernes Fahrrad“ dagegen werden wahrscheinlich Suchergebnisse von Google Bilder, aber keine lokalen Suchergebnisse angezeigt. In der Galerie der visuellen Elemente findest du die gängigsten UI-Elemente der Google Websuche.
Es kann vorkommen, dass du eine Seite, die laut der Search Console indexiert wurde, nicht in den Suchergebnissen siehst. Mögliche Gründe:
- Der Inhalt der Seite ist für die Suchanfragen der Nutzer nicht relevant
- Die Qualität der Inhalte ist gering
- Robots–
meta
-Regeln verhindern die Bereitstellung
© CC BY 4.0 Google