Un site scraper è un tipo di software utilizzato per copiare il contenuto da un sito web.
I site scraper funzionano in modo simile ai web crawler, che essenzialmente svolgono la stessa funzione ai fini dell'indicizzazione dei siti web. I web crawler coprono l'intero Web, tuttavia, a differenza dei site scrapers, che prendono di mira i siti web specificati dall'utente.
A seconda del particolare programma raschiatore e delle specifiche dell'utente, il software può scaricare qualsiasi dato, inclusi interi siti Web, e seguire i collegamenti ad altri contenuti per ulteriori download. I dati ottenuti possono essere salvati come file di testo, CSV, HTML o XML; alcuni strumenti scraper consentono anche l'esportazione in un database compatibile.
Lo scraping dei contenuti ha numerosi scopi legittimi, ma viene spesso utilizzato anche per il furto di dati e il plagio. I siti web che presentano contenuti estratti da altri siti sono chiamati siti scraper.
Esempi di scraper di siti includono Web Content Extractor, Wget, ScrapeGoat e Scraper, un'estensione di Chrome.
Asheesh Laroia spiega il web scraping in questo video: