Il sovracampionamento e il sottocampionamento sono tecniche utilizzate nel data mining e nell'analisi dei dati per modificare classi di dati disuguali per creare set di dati bilanciati. Il sovracampionamento e il sottocampionamento sono noti anche come ricampionamento.
Queste tecniche di analisi dei dati vengono spesso utilizzate per essere più rappresentative dei dati del mondo reale. Ad esempio, è possibile apportare modifiche ai dati al fine di fornire materiali di formazione bilanciati per algoritmi di intelligenza artificiale e apprendimento automatico.
Un'area in cui vengono utilizzate tecniche di sovracampionamento e sottocampionamento è per la ricerca di indagine. Una popolazione campione del sondaggio può essere sbilanciata in termini di tipi di partecipanti, il che può scoraggiare la popolazione più ampia che il sondaggio intende studiare. Utilizzando il sovra o il sottocampionamento, i rapporti delle caratteristiche rilevate, come il sesso, il gruppo di età e l'etnia, possono essere utilizzati per rendere il peso dei dati più rappresentativo dei rapporti del gruppo all'interno delle maggiori popolazioni.
Sovracampionamento vs. sottocampionamento
Quando una classe di dati è la classe di minoranza sottorappresentata nel campione di dati, è possibile utilizzare tecniche di campionamento eccessivo per duplicare questi risultati per una quantità più equilibrata di risultati positivi nell'addestramento. Il campionamento eccessivo viene utilizzato quando la quantità di dati raccolti è insufficiente. Una tecnica di sovracampionamento popolare è SMOTE (Synthetic Minority Over-sampling Technique), che crea campioni sintetici campionando casualmente le caratteristiche dalle occorrenze nella classe minoritaria.
Al contrario, se una classe di dati è la classe di maggioranza sovrarappresentata, si può utilizzare il sottocampionamento per bilanciarla con la classe di minoranza. Il sottocampionamento viene utilizzato quando la quantità di dati raccolti è sufficiente. I metodi comuni di sottocampionamento includono centroidi del cluster e collegamenti di Tomek, entrambi mirati a potenziali caratteristiche di sovrapposizione all'interno dei set di dati raccolti per ridurre la quantità di dati della maggioranza.
Sia nel sovracampionamento che nel sottocampionamento, la semplice duplicazione dei dati è raramente suggerita. In generale, è preferibile il campionamento eccessivo poiché il campionamento insufficiente può comportare la perdita di dati importanti. Il sottocampionamento è suggerito quando la quantità di dati raccolti è maggiore dell'ideale e può aiutare gli strumenti di data mining a rimanere entro i limiti di ciò che possono effettivamente elaborare.