Spring videre til hovedindholdet
Kravlende
Daniel Towers avatar
Skrevet af Daniel Towers
Opdateret i denne uge

Crawling, nogle gange kendt som "spidering", er en teknik, som computere bruger til at opdage indholdet på en hjemmeside. Det er en metode, som store søgemaskiner som Google og Silktide stoler på.

Hvordan crawling fungerer

Crawling er en ligetil proces:

  1. Start med en kendt webside (som en hjemmesides forside)

  2. Download den side

  3. Find alle links på den side

  4. For hvert link, gentag processen

Crawling finder kun linkede sider

Hvis en side ikke er linket fra en anden side, er der ingen måde for en crawler at opdage den. Dette er vigtigt for både Silktide og Google.

For eksempel, en webadresse, der er skrevet på en plakat, men aldrig linket til andre steder på din hjemmeside, er kendt som en 'forældreløs side' og vil aldrig blive crawlet.

Du kan manuelt tilføje URL'en på en forældreløs side til en Silktide hjemmeside rapport for testning.

Crawling tager tid

Crawling af en hjemmeside involverer at downloade en side, finde nye links, følge disse links og teste eventuelle nye sider. Denne proces gentages, indtil alle sider er fundet. De fleste crawlers, inklusive Google og Silktide, downloader flere sider på én gang for at fremskynde processen. Men at downloade en hjemmeside for hurtigt kan overbelaste hjemmesiden og få den til at gå ned.

For at forhindre dette begrænser Silktide antallet af samtidige forbindelser til 6, svarende til 6 almindelige hjemmesidebrugere, der browser samtidig.

Crawling kan fortsætte for evigt

Nogle hjemmesider kan inkludere 'spider traps', som kan få en crawler til at fortsætte med at crawle for evigt. Et almindeligt eksempel er en kalenderwidget med links til at se den næste dag, og den næste, og så videre. En crawler forstår ikke, at det ikke giver mening at følge disse links, og vil fortsætte med at forsøge at finde enden af en række URL'er, der kan fortsætte for evigt.

For at undgå dette kan Silktide konfigureres til at ignorere de URL'er, der fører til spider traps, samtidig med at sikre, at de relevante sider, du ønsker at teste, er inkluderet i dine hjemmesiderapporter.

Besvarede dette dit spørgsmål?