Zum Hauptinhalt springen
Kriechen
Daniel Towers avatar
Verfasst von Daniel Towers
Diese Woche aktualisiert

Crawling, manchmal auch als "Spidern" bekannt, ist eine Technik, die Computer verwenden, um den Inhalt einer Website zu entdecken. Es ist eine Methode, auf die sich große Suchmaschinen wie Google und auch Silktide verlassen.

Wie Crawling funktioniert

Crawling ist ein einfacher Prozess:

  1. Beginnen Sie mit einer bekannten Webseite (wie der Startseite einer Website)

  2. Laden Sie diese Seite herunter

  3. Finden Sie alle Links auf dieser Seite

  4. Wiederholen Sie den Prozess für jeden Link

Crawling findet nur verlinkte Seiten

Wenn eine Seite nicht von einer anderen Seite verlinkt ist, gibt es keine Möglichkeit für einen Crawler, sie zu entdecken. Dies ist sowohl für Silktide als auch für Google wichtig.

Ein Beispiel ist eine Webadresse, die auf einem Poster geschrieben steht, aber nirgendwo anders auf Ihrer Website verlinkt ist. Diese wird als 'verwaiste Seite' bezeichnet und wird niemals gecrawlt.

Sie können die URL einer verwaisten Seite manuell zu einem Silktide-Websitereport hinzufügen, um sie zu testen.

Crawling benötigt Zeit

Das Crawlen einer Website beinhaltet das Herunterladen einer Seite, das Finden neuer Links, das Folgen dieser Links und das Testen neuer Seiten. Dieser Prozess wiederholt sich, bis alle Seiten gefunden sind. Die meisten Crawler, einschließlich Google und Silktide, laden mehrere Seiten gleichzeitig herunter, um den Prozess zu beschleunigen. Allerdings kann das zu schnelle Herunterladen einer Website diese überlasten und zum Absturz bringen.

Um dies zu verhindern, begrenzt Silktide die Anzahl der gleichzeitigen Verbindungen auf 6, was 6 regulären Website-Benutzern entspricht, die gleichzeitig surfen.

Crawling kann ewig weitergehen

Einige Websites könnten 'Spider-Fallen' enthalten, die dazu führen können, dass ein Crawler unendlich weiter crawlt. Ein häufiges Beispiel ist ein Kalender-Widget mit Links, um den nächsten Tag anzuzeigen, und den nächsten, und so weiter. Ein Crawler versteht nicht, dass das Folgen dieser Links keinen Sinn ergibt, und wird weiterhin versuchen, das Ende einer Serie von URLs zu finden, die unendlich weitergehen können.

Um dies zu vermeiden, kann Silktide so konfiguriert werden, dass die URLs, die zu Spider-Fallen führen, ignoriert werden, während sichergestellt wird, dass die relevanten Seiten, die Sie testen möchten, in Ihre Websitereports aufgenommen werden.

Hat dies deine Frage beantwortet?