Robots.txt – Tecnologico

Robots.txt è un file su un sito Web che indica ai crawler dei motori di ricerca quali parti del sito non devono essere accessibili dai programmi bot dei motori di ricerca. Robots.txt è un file di testo normale ma utilizza comandi e sintassi speciali per i webcrawlers. Sebbene non sia ufficialmente standardizzato, il file robots.txt è generalmente seguito da tutti i motori di ricerca.

I programmi Spider, come Googlebot, indicizzano un sito Web utilizzando le istruzioni fornite dal webmaster del sito. A volte un webmaster può avere parti del sito che non sono state ottimizzate per i motori di ricerca, oppure alcune parti dei siti web potrebbero essere soggette a sfruttamento da parte degli spammer attraverso, ad esempio, link spam su una pagina che presenta contenuti generati dagli utenti (UGC). Se un webmaster desidera mantenere le pagine nascoste dalla ricerca Google, può bloccare la pagina con un file robots.txt nella cartella di primo livello del sito. Robot.txt è anche noto come "protocollo di esclusione robot". Impedire ai crawler di indicizzare i contenuti di spam significa che la pagina non verrà presa in considerazione per determinare il PageRank e il posizionamento nelle pagine dei risultati dei motori di ricerca (SERP).

Il tag nofollow è un altro modo per controllare il comportamento del webcrawler. Il tag nofollow impedisce ai crawler di conteggiare i link all'interno delle pagine per determinare il PageRank. I webmaster possono utilizzare nofollow per evitare sanzioni per l'ottimizzazione dei motori di ricerca (SEO). Per impedire a Googlebot di seguire i link su una determinata pagina di un sito, il webmaster può includere un meta tag nofollow nel file robots.txt; per impedire al bot di seguire i singoli collegamenti, possono aggiungere rel = "nofollow" ai collegamenti stessi.