La digitalizzazione è il processo di conversione delle informazioni in un formato digitale. In questo formato, le informazioni sono organizzate in unità di dati discrete (chiamate bit) che possono essere indirizzate separatamente (di solito in gruppi a più bit chiamati byte). Questi sono i dati binari che i computer e molti dispositivi con capacità di calcolo (come fotocamere digitali e apparecchi acustici digitali) possono elaborare.
Il testo e le immagini possono essere digitalizzati in modo simile: uno scanner cattura un'immagine (che può essere un'immagine di testo) e la converte in un file immagine, come una bitmap. Un programma di riconoscimento ottico dei caratteri (OCR) analizza un'immagine di testo per aree chiare e scure al fine di identificare ogni lettera alfabetica o cifra numerica e converte ogni carattere in un codice ASCII.
La digitalizzazione audio e video utilizza uno dei tanti processi di conversione analogico-digitale in cui un segnale (analogico) variabile in modo continuo viene modificato, senza alterarne il contenuto essenziale, in un segnale multilivello (digitale). Il processo di campionamento misura l'ampiezza (intensità del segnale) di una forma d'onda analogica a indicatori di tempo equidistanti e rappresenta i campioni come valori numerici per l'immissione come dati digitali.
La digitalizzazione delle informazioni semplifica la conservazione, l'accesso e la condivisione. Ad esempio, un documento storico originale può essere accessibile solo alle persone che visitano la sua posizione fisica, ma se il contenuto del documento è digitalizzato, può essere reso disponibile a persone in tutto il mondo. C'è una tendenza crescente verso la digitalizzazione di dati storicamente e culturalmente significativi.
Secondo un articolo Il guardiano nel marzo 2007, se tutta la lingua parlata dall'alba dei tempi fosse digitalizzata, consumerebbe cinque exabyte di spazio di archiviazione. L'informazione digitale totale, nel 2006, è stata stimata in 161 miliardi di exabyte. L'email da sola rappresentava sei exabyte di quella cifra.