Crawler

Un crawler è un programma che visita i siti Web e legge le loro pagine e altre informazioni per creare voci per l'indice di un motore di ricerca. I principali motori di ricerca sul Web hanno tutti un programma di questo tipo, noto anche come "spider" o "bot". I crawler sono generalmente programmati per visitare i siti che sono stati inviati dai rispettivi proprietari come nuovi o aggiornati. È possibile visitare e indicizzare selettivamente interi siti o pagine specifiche. Apparentemente i crawler hanno ottenuto il nome perché scansionano attraverso un sito una pagina alla volta, seguendo i collegamenti ad altre pagine del sito fino a quando tutte le pagine non sono state lette.

Il crawler per il motore di ricerca AltaVista e il suo sito Web si chiama Scooter. Scooter aderisce alle regole di cortesia per i web crawler specificate nello Standard for Robot Exclusion (SRE). Chiede a ogni server quali file devono essere esclusi dall'indicizzazione. Non passa (o non può) passare attraverso i firewall. E utilizza uno speciale algoritmo per l'attesa tra le successive richieste del server in modo che non influenzi il tempo di risposta per gli altri utenti.