L'etichettatura dei dati, nel contesto dell'apprendimento automatico, è il processo di rilevamento e contrassegno dei campioni di dati. Il processo può essere manuale ma di solito viene eseguito o assistito da software.
A cosa serve l'etichettatura dei dati?
L'etichettatura dei dati è una parte importante della pre-elaborazione dei dati per il ML, in particolare per l'apprendimento supervisionato, in cui sia i dati di input che quelli di output sono etichettati per la classificazione per fornire una base di apprendimento per l'elaborazione futura dei dati.
Un sistema di addestramento per identificare gli animali nelle immagini, ad esempio, potrebbe essere fornito con più immagini di vari tipi di animali da cui apprendere le caratteristiche comuni di ciascuno, consentendo di identificare correttamente gli animali nelle immagini senza etichetta.
L'etichettatura dei dati viene utilizzata anche durante la costruzione di algoritmi ML per veicoli autonomi. I veicoli autonomi come le auto a guida autonoma devono essere in grado di distinguere gli oggetti nel loro percorso in modo che possano elaborare il mondo esterno e guidare in sicurezza. L'etichettatura dei dati viene utilizzata per consentire all'intelligenza artificiale (AI) dell'auto di distinguere tra una persona, la strada, un'altra macchina e il cielo etichettando le caratteristiche chiave di quegli oggetti o punti dati e cercando somiglianze tra loro.
Come funziona l'etichettatura dei dati?
I sistemi di machine learning e deep learning spesso richiedono enormi quantità di dati per stabilire una base per modelli di apprendimento affidabili. I dati che usano per informare l'apprendimento devono essere etichettati o annotati in base alle caratteristiche dei dati che aiutano il modello a organizzare i dati in modelli che producono una risposta desiderata.
Le etichette utilizzate per identificare le caratteristiche dei dati devono essere informative, discriminanti e indipendenti per produrre un algoritmo di qualità. Un set di dati adeguatamente etichettato fornisce una verità fondamentale che il modello ML utilizza per verificare l'accuratezza delle sue previsioni e per continuare a perfezionare il suo algoritmo.
Un algoritmo di qualità è elevato sia in precisione che in qualità. La precisione si riferisce alla vicinanza di determinate etichette nel set di dati alla verità di base. La qualità si riferisce a quanto è costantemente accurato un intero set di dati.
Gli errori nell'etichettatura dei dati compromettono la qualità del set di dati di addestramento e le prestazioni di tutti i modelli predittivi per i quali viene utilizzato. Per mitigare questo problema, molte organizzazioni adottano un approccio Human-in-the-Loop (HITL), mantenendo il coinvolgimento umano nella formazione e nel test di modelli di dati durante la loro crescita iterativa.
Metodi di etichettatura dei dati
Un'azienda può utilizzare diversi metodi per strutturare ed etichettare i propri dati. Le opzioni vanno dall'utilizzo di personale interno al crowdsourcing e ai servizi di etichettatura dei dati. Queste opzioni includono quanto segue:
- Crowdsourcing. Una piattaforma di terze parti offre a un'impresa l'accesso a molti lavoratori contemporaneamente.
- Appaltatori. Un'impresa può assumere lavoratori freelance temporanei per elaborare ed etichettare i dati.
- Team gestiti. Un'azienda può arruolare un team gestito per elaborare i dati. I team gestiti vengono formati, valutati e gestiti da un'organizzazione di terze parti.
- Personale interno. Un'azienda può utilizzare i propri dipendenti esistenti per elaborare i dati.
Non esiste un metodo ottimale per etichettare i dati. Le imprese dovrebbero utilizzare il metodo o la combinazione di metodi più adatti alle loro esigenze. Alcuni criteri da considerare quando si sceglie un metodo di etichettatura dei dati sono i seguenti:
- la dimensione dell'impresa;
- la dimensione del set di dati che richiede l'etichettatura;
- il livello di abilità dei dipendenti del personale;
- i vincoli finanziari dell'impresa; e
- lo scopo del modello ML viene integrato con dati etichettati.
Un buon team di etichettatura dei dati dovrebbe idealmente avere una conoscenza del dominio del settore in cui opera un'impresa. I etichettatori di dati che hanno un contesto esterno che li guida sono più accurati. Dovrebbero anche essere flessibili e agili, perché l'etichettatura dei dati e il ML sono processi iterativi, che cambiano e si evolvono sempre man mano che vengono acquisite più informazioni.
Importanza dell'etichettatura dei dati
Un recente rapporto della società di ricerca e consulenza sull'intelligenza artificiale Cognilytica ha rilevato che oltre l'80% del tempo che le imprese dedicano a progetti di intelligenza artificiale è dedicato alla preparazione, alla pulizia e all'etichettatura dei dati. L'etichettatura manuale dei dati è il metodo più dispendioso in termini di tempo e denaro, ma può essere garantito per applicazioni importanti.
I critici dell'intelligenza artificiale ipotizzano che l'automazione metterà a rischio i lavori con poche competenze come il lavoro nei call center, la guida di camion e Uber, perché le attività meccaniche stanno diventando più facili da eseguire per le macchine. Tuttavia, alcuni esperti ritengono che l'etichettatura dei dati possa rappresentare una nuova opportunità di lavoro a bassa competenza per sostituire quelli che sono annullati dall'automazione, perché c'è un surplus sempre crescente di dati e macchine che devono elaborarli per svolgere le attività necessarie per ML e AI avanzati.