Un data janitor è un dipendente IT che ripulisce le origini di big data per prepararle per analisti e data scientist. Il lavoro è stato creato per consentire a coloro con competenze di alto livello di essere impiegati in modo più efficace piuttosto che in un lavoro che potrebbe essere svolto da altri.
Si stima che il tempo di preparazione dei dati possa rappresentare oltre l'80% del tempo impiegato nell'analisi dei dati. I data janitors, noti anche come data wrangler, eseguono il lavoro di preparazione necessario che deve essere completato prima che siano possibili elaborazioni e analisi più sofisticate. Un data janitor acquisisce, ispeziona, consolida, ripulisce e organizza dati disparati e disorganizzati, rendendo possibile il lavoro di analisti di dati e scienziati di dati in molto meno tempo scaricando il lavoro che normalmente il personale IT più qualificato dovrebbe svolgere prima di lavorare effettivamente con il dati.
Prima che i data janitor facciano il loro lavoro, i big data non sono pronti per un'analisi complessa. La loro preparazione prepara anche i dati per l'uso con strumenti come Hadoop, Pig, Hive, Spark e MapReduce e linguaggi di programmazione che includono linguaggio di query strutturato (SQL), Python, Scala e Perl, nonché linguaggi di calcolo statistico come R.
Poiché le aziende IT acquisiscono ed elaborano sempre più dati, la divisione del carico di lavoro è sempre più importante per fornire analisi di qualità in tempo. Spesso sono i giovani dipendenti nel campo dell'analisi dei dati a svolgere questo minuzioso lavoro di preparazione. Quasi un terzo dei lavoratori di business intelligence può essere considerato custode dei dati, almeno come parte del proprio lavoro. Il termine custode dei dati in genere non è un titolo di lavoro ma più una descrizione dell'attività. Un dipendente il cui ruolo principale è la preparazione dei dati può essere definito ingegnere dei dati.