La riduzione della dimensionalità è una tecnica di apprendimento automatico (ML) o statistica per ridurre la quantità di variabili casuali in un problema ottenendo un insieme di variabili principali. Questo processo può essere eseguito utilizzando una serie di metodi che semplificano la modellazione di problemi complessi, eliminano la ridondanza e riducono la possibilità di overfitting del modello e quindi includendo risultati che non appartengono.
Il processo di riduzione della dimensionalità è diviso in due componenti, selezione delle caratteristiche ed estrazione delle caratteristiche. Nella selezione delle caratteristiche, vengono scelti sottoinsiemi più piccoli di caratteristiche da un insieme di molti dati dimensionali per rappresentare il modello filtrando, avvolgendo o incorporando. L'estrazione delle caratteristiche riduce il numero di dimensioni in un set di dati per modellare le variabili ed eseguire l'analisi dei componenti.
I metodi di riduzione della dimensionalità includono:
- Analisi fattoriale
- Filtro a bassa varianza
- Filtro ad alta correlazione
- Eliminazione delle caratteristiche all'indietro
- Selezione funzionalità in avanti
- Analisi dei componenti principali (PCA)
- Analisi discriminante lineare
- Metodi basati su proiezioni
- t-Distributed Stochastic Neighbor Embedding (t-SNE)
- UMAP
- Analisi dei componenti indipendenti
- Rapporto valore mancante
- Foresta casuale
La riduzione della dimensionalità è vantaggiosa per gli sviluppatori di intelligenza artificiale o per i professionisti dei dati che lavorano con enormi set di dati, eseguono la visualizzazione dei dati e analizzano dati complessi. Aiuta nel processo di compressione dei dati, consentendo ai dati di occupare meno spazio di archiviazione e riduce i tempi di calcolo.