Riduzione dimensionale

La riduzione della dimensionalità è una tecnica di apprendimento automatico (ML) o statistica per ridurre la quantità di variabili casuali in un problema ottenendo un insieme di variabili principali. Questo processo può essere eseguito utilizzando una serie di metodi che semplificano la modellazione di problemi complessi, eliminano la ridondanza e riducono la possibilità di overfitting del modello e quindi includendo risultati che non appartengono.

Il processo di riduzione della dimensionalità è diviso in due componenti, selezione delle caratteristiche ed estrazione delle caratteristiche. Nella selezione delle caratteristiche, vengono scelti sottoinsiemi più piccoli di caratteristiche da un insieme di molti dati dimensionali per rappresentare il modello filtrando, avvolgendo o incorporando. L'estrazione delle caratteristiche riduce il numero di dimensioni in un set di dati per modellare le variabili ed eseguire l'analisi dei componenti.

I metodi di riduzione della dimensionalità includono:

Analisi fattoriale
Filtro a bassa varianza
Filtro ad alta correlazione
Eliminazione delle caratteristiche all'indietro
Selezione funzionalità in avanti
Analisi dei componenti principali (PCA)
Analisi discriminante lineare
Metodi basati su proiezioni
t-Distributed Stochastic Neighbor Embedding (t-SNE)
UMAP
Analisi dei componenti indipendenti
Rapporto valore mancante
Foresta casuale

La riduzione della dimensionalità è vantaggiosa per gli sviluppatori di intelligenza artificiale o per i professionisti dei dati che lavorano con enormi set di dati, eseguono la visualizzazione dei dati e analizzano dati complessi. Aiuta nel processo di compressione dei dati, consentendo ai dati di occupare meno spazio di archiviazione e riduce i tempi di calcolo.