Emulazione vocale (riproduzione vocale)

L'emulazione vocale è la riproduzione generata dal software del discorso di un individuo. Il software applica tecnologie avanzate come l'apprendimento profondo e le reti neurali alla sintesi vocale, consentendo di imitare le voci di persone specifiche.

Lyrebird, una startup canadese di intelligenza artificiale con sede a Montreal, ha rilasciato un software in grado di produrre un'imitazione del discorso di chiunque da un singolo minuto di audio. Gli algoritmi di Lyrebird possono prendere una registrazione di 60 secondi del discorso di una persona come input e generare fino a mille frasi in mezzo secondo. Il software può modificare l'intonazione in modo che corrisponda a un'emozione desiderata, in modo che il discorso in uscita suoni eccitato, ad esempio, o arrabbiato o stressato.

Adobe sta lavorando a una tecnologia simile. Il sistema Project VoCo dell'azienda richiede 20 minuti di input, ma consente all'utente di modificare il testo in modo simile al modo in cui Adobe Photoshop consente di modificare le immagini.

La tecnologia non è ancora abbastanza sofisticata per essere completamente convincente, ma le potenziali applicazioni dell'emulazione vocale sono promettenti. Il software di Lyrebird potrebbe consentirti di farti leggere un libro dal tuo attore preferito o di "leggere" un libro a tuo figlio quando eri lontano da casa. Il software potrebbe anche abilitare protesi del linguaggio per disabili, riproducendo la voce reale dell'utente.

Altre applicazioni dell'emulazione vocale sono meno favorevoli. Un utente malintenzionato potrebbe utilizzare la tecnologia per mascherarsi da utente autorizzato in un sistema di riconoscimento vocale, ad esempio, o per imitare la voce di qualcuno che dice qualcosa che non aveva effettivamente detto. Tali dichiarazioni potrebbero essere utilizzate per danneggiare la reputazione di un bersaglio o per diffondere informazioni false o utilizzate come armi.