L'igiene dei dati è il processo collettivo condotto per garantire la pulizia dei dati. I dati sono considerati puliti se sono relativamente privi di errori. I dati sporchi possono essere causati da una serie di fattori, tra cui record duplicati, dati incompleti o obsoleti e analisi impropria dei campi dei record da sistemi disparati. Gli errori possono essere introdotti in qualsiasi fase durante l'immissione, la memorizzazione e la gestione dei dati.
La qualità dei dati è fondamentale per i processi operativi e transazionali all'interno dell'azienda e per l'affidabilità del reporting di business analytics (BA) / business intelligence (BI).
La pulizia dei dati, chiamata anche pulizia dei dati, è il processo di modifica o rimozione dei dati in un database che è errato, incompleto, formattato in modo improprio o duplicato. In genere il processo prevede l'aggiornamento, la standardizzazione e la deduplicazione dei record per creare un'unica visualizzazione dei dati, anche se sono archiviati in più sistemi disparati.