Interfaccia del programma applicativo vocale (SAPI)

SAPI (Speech Application Program Interface) è un'interfaccia per programmi applicativi (API) fornita con il sistema operativo Microsoft Windows che consente ai programmatori di scrivere programmi che offrono funzionalità di riconoscimento vocale e di sintesi vocale. Le interfacce sono fornite per i linguaggi di programmazione C, C ++ e Visual Basic. Utilizzando l'architettura COM (Component Object Model) di Microsoft, SAPI è l'interfaccia del programma applicativo vocale più utilizzata oggi. In futuro, Microsoft prevede di incorporare la tecnologia vocale utilizzando SAPI nel proprio sistema operativo.

SAPI ha sette componenti principali:

Comando vocale: Voice Command è un'interfaccia di alto livello che fornisce il riconoscimento vocale di comando e controllo per le applicazioni. Il comando vocale consente a uno sviluppatore di creare un menu di comando vocale che contiene comandi vocali, come "nuovo file" o "invia posta a [email protected]", che un utente parla in un microfono o altro dispositivo audio. L'utente può controllare il computer senza bisogno di tastiera o mouse.
Dettatura vocale: La dettatura vocale consente all'utente di dettare in qualsiasi applicazione che supporti il riconoscimento vocale. Una casella di modifica invisibile o virtuale riceve il testo dettato dall'utente e visualizza il testo in una finestra dell'applicazione. La dettatura vocale consente la formattazione del testo come l'uso delle maiuscole, la traduzione di parole di punteggiatura in simboli di punteggiatura, voci di glossario incorporate e la correzione dell'ultima parola pronunciata o di una parola selezionata. Le applicazioni che utilizzano la dettatura vocale classificano il parlato in base ad argomenti che utilizzano stili di linguaggio diversi. Gli argomenti includono discorso di posta elettronica, scrittura formale o discorso di programmazione. La dettatura vocale memorizza le informazioni per ogni argomento sul disco rigido.
Testo vocale: Voice Text converte il testo in parlato che viene riprodotto tramite gli altoparlanti del computer o inviato tramite una linea telefonica. Il discorso riprodotto ha diverse modalità, ognuna con una voce diversa.
Telefonia vocale: La telefonia vocale utilizza controlli di telefonia simili ai controlli di Windows. I controlli di Windows includono pulsanti, caselle di riepilogo, dispositivi di scorrimento e altri oggetti che possono essere manipolati da un mouse o da una tastiera. I controlli di telefonia sono codici che riconoscono le risposte vocali come Sì o No, il numero di telefono, la data e l'ora. I controlli di telefonia creano un dialogo tra l'utente e il computer. Ad esempio, un utente chiama un venditore per ordinare un articolo. L'utente risponde quindi a diverse domande parlando nel ricevitore del telefono. I controlli di telefonia riconoscono queste risposte e le inviano all'applicazione che elabora le risposte. I controlli di telefonia gestiscono anche le condizioni di errore (queste sono comuni con i numeri parlati o quando il chiamante non risponde) e le variazioni delle risposte come "4 gennaio" o "domani".
Riconoscimento vocale diretto: Questa è un'interfaccia di basso livello simile a Voice Command. La differenza principale è che il riconoscimento vocale diretto parla direttamente al motore vocale. Ciò conferisce all'applicazione più controllo e velocità.
Sintesi vocale diretta: Questa è un'interfaccia di basso livello simile a Voice Text che parla anche direttamente al motore vocale.
Oggetti audio: Un oggetto audio indica al motore di riconoscimento vocale dove ottenere il proprio audio.

Il futuro della tecnologia vocale includerà prodotti che ti permetteranno di fare cose come navigare in Internet usando il parlato e chiedere alla tua televisione cosa viene trasmesso stasera. Gli sviluppatori di software stanno sviluppando applicazioni che comprendono i concetti. Ad esempio, se dici al tuo computer di stampare un determinato documento, la tua applicazione saprà se stamparlo sulla tua stampante o sulla stampante di rete. La tecnologia vocale è importante per i professionisti medici, il personale delle forze dell'ordine, i portatori di handicap fisici, nonché molti utenti aziendali e domestici.