Il modello di canale rumoroso è un framework utilizzato nell'elaborazione del linguaggio naturale (NLP) per identificare la parola corretta in situazioni in cui non è chiara. Il framework aiuta a rilevare le parole previste per i correttori ortografici, assistenti virtuali, programmi di traduzione, sistemi di risposta alle domande e software di sintesi vocale.
Rumore, in questo contesto, è tutto ciò che oscura Segnali e dati. Il modello di canale rumoroso è così chiamato perché il segnale originale - la parola desiderata - è oscurato durante la trasmissione quando interruzioni o errori creano rumore nel canale. In questo caso, il rumore potrebbe consistere in un errore di ortografia nella lingua scritta, ad esempio, o in suoni ambientali, pronuncia errata o linguaggio confuso nella lingua parlata.
Ecco un esempio di base di come il modello di canale rumoroso potrebbe funzionare con un programma di controllo ortografico:
Quando una parola non viene trovata nel dizionario del controllo ortografico, viene identificata come un errore di ortografia e le parole candidate vengono suggerite in base alla loro probabilità di essere la parola desiderata, di solito come risultato di quanto queste parole siano vicine all'errore di ortografia. Di norma, i candidati più probabili comporteranno una singola modifica e ci sono quattro diversi tipi di errori di modifica singola: cancellazione, inserimento, sostituzione e annullamento. Se la parola errata è acress, Per esempio, acri avrebbe potuto essere inteso ma aggiungere un s extra; l'attrice avrebbe potuto essere intesa ma la t mancava; attraverso avrebbe potuto essere inteso ma e digitato invece di o; carezza avrebbe potuto essere inteso ma le prime due lettere sono state digitate nella sequenza sbagliata. Pertanto, se l'utente digita acress, il programma di controllo ortografico potrebbe suggerire quelle quattro parole.
A causa dei capricci del linguaggio umano e del potenziale rumore effettivo, il software di riconoscimento vocale presenta ulteriori sfide per i sistemi basati su testo. Tuttavia, la struttura di base è simile.