Googlebot – Tecnologico

Googlebot è un bot di ricerca del software di scansione del Web (noto anche come spider o webcrawler) che raccoglie le informazioni sulla pagina Web utilizzate per fornire le pagine dei risultati dei motori di ricerca (SERP) di Google.

Googlebot raccoglie documenti dal Web per creare l'indice di ricerca di Google. Attraverso la raccolta costante di documenti, il software scopre nuove pagine e aggiorna le pagine esistenti. Googlebot utilizza un design distribuito su molti computer in modo che possa crescere come fa il Web.

Il webcrawler utilizza algoritmi per determinare quali siti navigare, quali tariffe navigare e quante pagine recuperare. Googlebot inizia con un elenco generato dalle sessioni precedenti. Questo elenco viene quindi ampliato dalle mappe dei siti fornite dai webmaster. Il software esegue la scansione di tutti gli elementi collegati nelle pagine web che naviga, rilevando nuovi siti, aggiornamenti ai siti e collegamenti morti. Le informazioni raccolte vengono utilizzate per aggiornare l'indice del web di Google.

Googlebot crea un indice entro i limiti stabiliti dai webmaster nei propri file robots.txt. Se un webmaster desidera mantenere le pagine nascoste dalla ricerca Google, ad esempio, può bloccare Googlebot in un file robots.txt nella cartella di primo livello del sito. Per impedire a Googlebot di seguire i link su una determinata pagina di un sito, può includere il meta tag nofollow; per impedire al bot di seguire i singoli link, il webmaster può aggiungere rel = "nofollow" ai link stessi.

Il webmaster di un sito potrebbe rilevare visite ogni pochi secondi dai computer su google.com, mostrando lo user-agent Googlebot. In generale, Google cerca di indicizzare il più possibile un sito senza sovraccaricare la larghezza di banda del sito. Se un webmaster rileva che Googlebot utilizza troppa larghezza di banda, può impostare una tariffa sulla home page della console di ricerca di Google che rimarrà in vigore per 90 giorni.

Presentando alla conferenza SearchLove 2011, Josh Giardino ha affermato che Googlebot è in realtà il browser Chrome. Ciò significherebbe che Googlebot non solo ha la capacità di sfogliare le pagine nel testo, come fanno i crawler, ma può anche eseguire script e contenuti multimediali come fanno i browser web. Tale capacità potrebbe consentire a Googlebot di trovare informazioni nascoste ed eseguire altre attività non riconosciute da Google. Giardino è arrivato al punto di dire che Googlebot potrebbe essere la ragione originale per cui l'azienda ha creato Chrome.