La sintesi vocale è la simulazione generata dal computer del linguaggio umano. Viene utilizzato per tradurre le informazioni scritte in informazioni sonore dove è più conveniente, soprattutto per le applicazioni mobili come la posta elettronica abilitata alla voce e la messaggistica unificata. Viene anche utilizzato per assistere i non vedenti in modo che, ad esempio, il contenuto di uno schermo possa essere letto automaticamente ad alta voce a un utente non vedente. La sintesi vocale è la controparte del riconoscimento vocale o vocale. Il primo sforzo di sintesi vocale fu nel 1779, quando il professor russo Christian Kratzenstein creò un apparato basato sul tratto vocale umano per dimostrare le differenze fisiologiche coinvolte nella produzione di cinque suoni vocalici lunghi. Il primo sintetizzatore vocale completamente funzionante, VODER (Voice Operating Demonstrator) di Homer Dudley, fu mostrato alla Fiera Mondiale del 1939. Il VODER era basato sulla ricerca del vocoder (voice coder) dei Bell Laboratories della metà degli anni Trenta.
Protesi vocale è un linguaggio generato dal computer per persone con disabilità fisiche che rendono difficile parlare in modo intelligibile. Gran parte della ricerca in quest'area integra sia la generazione del testo che quella del parlato, poiché le disabilità che creano problemi con la parola spesso rendono difficile anche l'inserimento del testo. Data la velocità e la fluidità della conversazione umana, la sfida della protesi del linguaggio è aggirare queste difficoltà. L'obiettivo principale della ricerca è creare un sistema protesico che assomigli il più possibile al linguaggio naturale, con il minimo input richiesto dall'utente. I sistemi di protesi del linguaggio consentono inoltre alle persone con problemi di vista di utilizzare i computer.
multimodale sintesi vocale (a volte indicata come audio-visivi sintesi vocale) incorpora un volto animato sincronizzato per completare il discorso sintetizzato. Le stesse difficoltà alla base del disturbo del linguaggio di un individuo spesso ostacolano la sua capacità di comunicare attraverso le espressioni facciali. Sebbene il discorso sintetizzato sia sempre più realistico, potrebbe passare un po 'di tempo prima che si avvicini alla capacità di sfumature del discorso naturale. I sistemi multimodali incorporano un mezzo per aggiungere segnali non verbali al discorso (come scuotere la testa, sorridere e ammiccare, per esempio) per rendere il significato dell'utente il più chiaro possibile.