Sie sind hier : sebastian1012.bplaced.net/ homepage-neu / tutorialshtml / Googlebot-Webcrawler-Anleitung.php

bot

Was ist Googlebot?

  • Googlebot ist der von Google verwendete Webcrawler.
  • Es wird von Google verwendet, um Webseiten zu finden und abzurufen.
  • Die von Googlebot gesammelten Informationen werden verwendet, um den Google-Index zu aktualisieren.
Googlebot

Googlebot besucht Milliarden von Webseiten und besucht ständig Seiten im gesamten Web.

Was ist ein Webcrawler?

  • Web-Crawler (auch als Bots, Robots oder Spiders bezeichnet) sind eine Art von Software, die entwickelt wurde, um Links zu folgen, Informationen zu sammeln und diese Informationen dann irgendwo hin zu senden.

Was macht Googlebot?

Googlebot scannt nach und listet Links auf
  • Der Googlebot ruft den Inhalt von Webseiten ab (die Wörter, den Code und die Ressourcen, aus denen die Webseite besteht).
  • Wenn der abgerufene Inhalt Links zu anderen Dingen enthält, wird darauf hingewiesen.
  • Anschließend werden die Informationen an Google gesendet.

Googlebot und Ihre Website

Die Informationen, die Googlebot an Google-Computer zurücksendet, aktualisieren den Google-Index.

Im Google-Index werden Webseiten verglichen und bewertet.

  • Damit Ihre Webseiten in Google gefunden werden können, müssen sie für Googlebot sichtbar sein.
  • Damit Ihre Webseiten einen optimalen Rang haben, müssen alle Webseitenressourcen für Googlebot zugänglich sein.

Der Unterschied zwischen Googlebot und dem Google-Index

Googlebot und Google-Server

Googlebot

  • Der Googlebot ruft Inhalte aus dem Web ab.
  • Googlebot beurteilt den Inhalt ohnehin nicht, sondern ruft ihn nur ab.
  • Der einzige Grund zur Besorgnis bei Googlebot ist "Kann ich auf diesen Inhalt zugreifen?". und "Gibt es weitere Inhalte, auf die ich zugreifen kann?"

Der Google-Index

  • Der Google-Index verwendet den Inhalt, den er vom Googlebot erhält, und ordnet damit Seiten

Der erste Schritt, um von Google eingestuft zu werden, besteht darin, von Googlebot abgerufen zu werden.

Sicherstellen, dass Googlebot Ihre Seiten sehen kann

Da Googlebot die Methode ist, mit der Google den Index aktualisiert, ist es wichtig, dass Googlebot Ihre Seiten sehen kann.

Die grundlegenden ersten Fragen, die ein Webmaster stellen sollte, sind ...

  1. Kann Googlebot meine Seiten "sehen"?
  2. Kann Googlebot vollständig auf meine Inhalte und Links zugreifen?
  3. Kann Googlebot auf alle Ressourcen meiner Seite zugreifen?

Schauen wir uns diese näher an ...

1. Kann Googlebot meine Seiten "sehen"?

Googlebot, der eine Webseite betrachtet

Mit der folgenden Google-Suche können Sie sich ein Bild davon machen, was Google auf Ihrer Website sieht ...

site: yourwebsite.com

Wenn Sie "site:" vor Ihren Domain-Namen setzen, werden Sie von Google aufgefordert, die Seiten aufzulisten, die Google für Ihre Site indiziert hat.

Tipp: Stellen Sie dabei sicher, dass zwischen "site:" und Ihrem Domain-Namen kein Leerzeichen steht. Hier ist ein Beispiel für die Verwendung dieser Website ...

Website: varvy.com

Wenn Sie weniger als die erwartete Anzahl von Seiten sehen, müssen Sie wahrscheinlich sicherstellen, dass Sie Googlebot nicht mit Ihre robots.txt-Datei blockieren (die robots.txt-Datei wird weiter unten auf dieser Seite erläutert).

2. Kann Googlebot auf alle meine Inhalte und Links vollständig zugreifen?

Googlebot durch Webseite verwirrt

Im nächsten Schritt stellen Sie sicher, dass Google Ihre Inhalte und Links korrekt anzeigt.

Nur weil Googlebot Ihre Seiten sehen kann, bedeutet dies nicht, dass Google ein perfektes Bild davon hat, was genau diese Seiten sind.

Googlebot, der Webseite betrachtet

Google Bot sieht eine Website nicht so wie Menschen. Im obigen Bild befindet sich eine Webseite mit einem Bild. Menschen können das Bild sehen, aber was Googlebot sieht, ist nur der Code, der dieses Bild aufruft.

Googlebot ist möglicherweise in der Lage, auf diese Webseite (die HTML-Datei) zuzugreifen, kann jedoch aus verschiedenen Gründen nicht auf das auf dieser Webseite gefundene Bild zugreifen.

In diesem Fall enthält der Google-Index dieses Bild nicht. Dies bedeutet, dass Google Ihre Webseite nicht vollständig versteht.

Wie Googlebot eine Webseite "sieht"

Der Googlebot sieht keine vollständigen Webseiten, sondern nur die einzelnen Komponenten dieser Seite.

Googlebot beim Betrachten von Dateien

Wenn eine dieser Komponenten für Googlebot nicht verfügbar ist, werden sie nicht an den Google-Index gesendet.

Um unser früheres Beispiel zu verwenden, sieht Googlebot hier eine Webseite (HTML und CSS), das Bild wird jedoch nicht angezeigt.

Googlebot kann nicht auf alle Ressourcen zugreifen

Es sind nicht nur Bilder. Es gibt viele Teile einer Webseite. Damit Google Ihre Webseiten optimal einstufen kann, benötigt Google das vollständige Bild.

Es gibt viele Szenarien, in denen Googlebot möglicherweise nicht auf Webinhalte zugreifen kann. Hier sind einige häufige Szenarien.

  • Von robots.txt blockierte Ressource
  • Seitenlinks nicht lesbar oder falsch
  • Übermäßiges Vertrauen in Flash oder andere Technologien, mit denen Webcrawler möglicherweise Probleme haben
  • Fehlerhaftes HTML oder Codierungsfehler
  • Übermäßig komplizierte dynamische Links

Die meisten dieser Dinge können mithilfe des Google-Richtlinien-Tools schnell überprüft werden .

Wenn Sie ein Google-Konto haben, verwenden Sie das Tool "Abrufen und Rendern" in der Google-Suchkonsole . Mit diesem Tool erhalten Sie ein Live-Beispiel dafür, was Google für eine einzelne Seite sieht.

3. Kann Googlebot auf alle Ressourcen meiner Seite zugreifen?

Googlebot für Ressourcendateien gesperrt

Wenn CSS- und Javascript-Dateien von Ihrer robots.txt-Datei blockiert werden, kann dies zu schwerwiegenden Missverständnissen bezüglich Ihres Webseiteninhalts führen (viel schlimmer als nur ein fehlendes Bild).

Es wird immer wahrer, dass eine Webseite tatsächlich anders sein oder einen anderen Inhalt haben kann, wenn die Seitenressourcen nicht geladen sind.

Ein Beispiel, um dies zu veranschaulichen, wäre eine mobile Seite, die CSS oder Javascript verwendet, um zu bestimmen, was angezeigt werden soll, je nachdem, welches Gerät die Seite ansieht. Wenn der Googlebot nicht auf das CSS oder Javascript dieser Seite zugreifen kann, erkennt er möglicherweise nicht, dass die Seite mobil sein kann.

In diesem und anderen ähnlichen Szenarien "sieht" Google Ihre Seite und versteht sie möglicherweise sogar, aber es ist möglicherweise nicht ausreichend bekannt, um zu erkennen, dass sie in vielen anderen Szenarien eingestuft werden kann, als in dem, was der HTML-Code alleine darstellt.

Dies kann auch mit dem Google-Richtlinien-Tool überprüft werden .

Kann ich Googlebot steuern?

Ja.

Der Googlebot folgt den Anweisungen, die er über die robots.txt-Standards erhält, und verfügt sogar über erweiterte Steuerungsmöglichkeiten, die Google-spezifisch sind.

Einige Möglichkeiten, wie Sie Googlebot steuern können, sind ...

  • Verwendung einer robots.txt-Datei
  • Einfügen von Roboteranweisungen in die Metadaten Ihrer Webseiten
  • Einfügen von Roboteranweisungen in Ihre Header
  • Sitemaps verwenden
  • Verwenden der Google-Suchkonsole

Am weitesten verbreitet ist die Verwendung der robots.txt-Datei

Was ist eine robots.txt-Datei?

Googlebot- und robots.txt-Datei

Die robots.txt-Datei steuert, wie Suchmaschinen wie Googlebot Ihre Webseiten sehen und mit ihnen interagieren.

Kurz gesagt, eine robots.txt-Datei teilt Googlebot mit, was beim Besuch Ihrer Seiten zu tun ist, indem Dateien und Ordner aufgelistet werden, auf die Googlebot nicht zugreifen soll.

Weitere Informationen finden Sie in meinem Handbuch zur robots.txt-Datei .

Um Ihre robots.txt-Datei zu sehen (oder um zu sehen, ob Sie eine haben), können Sie eine URL (zum Beispiel Ihre Homepage) in das Tool unten eingeben. Diese wird Ihnen hier auf dieser Seite angezeigt.

Hier sind einige Ressourcen von Google, die von Roboteranweisungen sprechen:

Sitemaps und Googlebot

Googlebot in der Karte

Mithilfe von Sitemaps können Sie Googlebot dabei helfen, Ihre Website zu verstehen, oder wie Google sagt ...

"Eine Sitemap ist eine Datei, in der Sie die Webseiten Ihrer Website auflisten können, um Google und andere Suchmaschinen über die Organisation Ihres Websiteinhalts zu informieren. Suchmaschinen-Webcrawler wie Googlebot lesen diese Datei, um Ihre Website intelligenter zu crawlen."

Google gibt an, dass Sitemaps in bestimmten Szenarien am besten verwendet werden, insbesondere ...

  • Ihre Website ist wirklich groß.
  • Ihre Website verfügt über ein großes Archiv von Inhaltsseiten, die isoliert oder nicht miteinander verknüpft sind.
  • Ihre Website ist neu und enthält nur wenige externe Links.
  • Ihre Website verwendet Rich Media-Inhalte, wird in Google News angezeigt oder verwendet andere mit Sitemaps kompatible Anmerkungen.

Sitemaps werden derzeit für viele Zwecke verwendet. Für Googlebot erstellen Sitemaps jedoch im Grunde genommen eine Liste von URLs und anderen Daten, die Googlebot beim Besuch Ihrer Webseiten als Richtlinie verwenden kann.

Google erklärt hier, wie Sitemaps erstellt werden .

Googlebot und die Google-Suchkonsole

Diagramme im Tool, die die Googlebot-Aktivität anzeigen

Ein weiterer Ort, an dem Sie Googlebot steuern können, ist die Google-Suchkonsole.

Wenn der Googlebot zu schnell auf Ihren Webserver zugreift, können Sie die Crawling-Rate ändern .

Sie können auch eine Übersicht darüber anzeigen, wie Googlebot auf Ihre Website zugreift, Ihre robots.txt-Datei testen, Googlebot- Crawling-Fehler anzeigen und Abruf- und Render-Anforderungen ausführen, um zu verstehen, wie Google Ihre Webseiten sieht.

Wie viele Googlebots / Google Webcrawler gibt es?

Es gibt neun verschiedene Arten von Google-Webcrawlern.

Neun verschiedene Googlebots
  • Googlebot (Google Websuche)
  • Google Smartphone
  • Google Mobile (Feature-Handy)
  • Googlebot-Bilder
  • Googlebot-Video
  • Googlebot News
  • Google AdSense
  • Google Mobile Adsense
  • Google Adsbot (Zielseitenqualitätsprüfung)

Wenn Sie Details zu den einzelnen Crawlern wünschen, besuchen Sie unbedingt die von Google bereitgestellte Hilfeseite für Google-Crawler .

Was ist der Googlebot User-Agent?

Da es mehrere Googlebots gibt, gibt es auch mehrere Googlebot User-Agents. Schauen wir uns die wichtigsten an:

Googlebot (Google Websuche)

User-Agent-Namen: Googlebot

Mozilla / 5.0 (kompatibel; Googlebot / 2.1; + http: //www.google.com/bot.html)

Googlebot Smartphone

User-Agent-Namen: Googlebot

Mozilla / 5.0 (iPhone; CPU iPhone OS 8_3 wie Mac OS X) AppleWebKit / 600.1.4 (KHTML wie Gecko) Version / 8.0 Mobile / 12F70 Safari / 600.1.4 (kompatibel; Googlebot / 2.1; + http: // www .google.com / bot.html)

Googlebot-Bild

User-Agent-Namen: Googlebot-Image (Googlebot)

Googlebot-Image / 1.0

Googlebot-Video

User-Agent-Namen: Googlebot-Video (Googlebot)

Googlebot-Video / 1.0

Der Google - Crawler Hilfeseite bietet User-Agent Informationen über alle Google webcrawlers und ist der Ort , den Sie für die meisten aktualisiert und zuverlässige Informationen aussehen sollte.

Googlebot und Sprachen / Standorte

Googlebot sagt Hallo in verschiedenen Sprachen

Wenn auf Ihren Seiten je nach Standort oder Sprache der Anfrage unterschiedliche Sprachen oder Inhalte angezeigt werden, werden im Googlebot möglicherweise nicht immer alle Inhalte angezeigt (es wird empfohlen, hreflang zu verwenden ).

In diesem Artikel geht es jedoch um Googlebot. Interessant ist, was Googlebot für sprach- und ortsbezogene Inhalte getan hat.

Lass uns mal sehen...

Benutzer mit verschiedenen Sprachen oder Standorten

Wenn Benutzer Ihre Seite besuchen und Sie eine standort- oder sprachbasierte Lösung für unterschiedliche Inhalte haben, wird einem Benutzer in Italien der italienische Inhalt und einem Benutzer in Amerika der englische Inhalt angezeigt.

Googlebot hat seinen Sitz in Amerika. Wie funktioniert das? Wie wird Googlebot den italienischen Inhalt sehen?

Gebietsschemasicheres Crawlen mit Googlebot

Der Googlebot verwendet zwei Haupttechniken (von denen Google berichtet), um das Crawlen in Bezug auf das Gebietsschema zu erstellen ...

  • Geoverteiltes Crawlen: Googlebot verwendet anscheinend IP-Adressen, die außerhalb der USA ansässig sind, zusätzlich zu den langjährigen IP-Adressen, die Googlebot anscheinend in den USA ansässig ist.
  • Sprachabhängiges Crawlen: Googlebot crawlt mit einem Accept-Language-Feld, das im HTTP-Header festgelegt ist.

Mit anderen Worten, Googlebot verwendet Methoden, um das Web als Nutzer von überall aus zu crawlen, aber (und das ist ein großes "aber"), Google empfiehlt immer noch die Verwendung von hreflang .

Überprüfen Sie immer die Googlebot-Crawling- Seite, die das Gebietsschema berücksichtigt, auf den offiziellen Hilfeseiten von Google, um Entscheidungen zu treffen !.

Finden der offiziellen Google-Hilfeseiten

Die meisten Links in diesem Artikel verweisen auf die offiziellen Google-Hilfeseiten.

Eine gute Möglichkeit, alles zu sehen, was Google über Googlebot (oder ein anderes Thema) gesagt hat, ist die Verwendung des Tools "Google fragen" auf dieser Website. Es durchsucht nur die offizielle Google-Dokumentation.

Hier sind die Ergebnisse für Googlebot - Googlebot-Artikel von Google .