La de-anonimizzazione è una strategia di data mining in cui i dati anonimi vengono incrociati con altre origini dati per riidentificare l'origine dati anonima.
Qualsiasi informazione che distingue una fonte di dati da un'altra può essere utilizzata per la de-anonimizzazione. Sebbene il concetto di de-anonimizzazione risale a diversi decenni fa, il termine ha fatto notizia nel 2006 quando Arvind Narayanan e Vitaly Shmatikov hanno partecipato a un concorso organizzato da Netflix, un popolare servizio di noleggio di film. Narayanan e Shmatikov hanno applicato la loro metodologia di de-anonimizzazione a un set di dati che conteneva le valutazioni dei film anonimi di 500,000 membri e sono stati in grado di identificare con successo i dati di Netflix per un numero di membri specifici. Secondo Narayanan e Shmatik, la de-anonimizzazione richiede dati abbondanti, granulari e abbastanza stabili nel tempo e nel contesto.
Mentre il governo degli Stati Uniti e altre nazioni procedono con iniziative di governo aperto, più dati stanno diventando pubblicamente disponibili su Internet. Molti di questi dati sono stati cancellati per creare ciò che il governo chiama "set di dati limitati". Le informazioni di identificazione personale (PII) come nomi, indirizzi e numeri di previdenza sociale vengono rimosse da set di dati limitati o offuscate attraverso un processo di anonimizzazione dei dati in modo che la fonte specifica dei dati rimanga anonima. Questa garanzia di anonimato protegge la privacy della fonte e consente al governo di condividere legalmente set di dati limitati con terze parti senza richiedere il permesso scritto. Tali dati si sono rivelati molto preziosi per i ricercatori, in particolare nel settore sanitario. I sostenitori della privacy, tuttavia, temono che, anche se i dati sono stati cancellati, è disponibile così tanto che l'identità di un individuo specifico potrebbe essere riscoperta.
Vedi anche: regole di associazione, business intelligence, opinion mining, OLAP, fuzzy logic