Bastano 15 secondi a Voice Engine di OpenAI per clonare la vostra voce

30 Mar 2024

Con il Voice Engine di OpenAI possibile clonare la voce di chiunque partendo un campione registrato di 15 secondi — Foto di Soundtrap - Unsplash

OpenAI ha mostrato l’anteprima di Voice Engine, espansione di esistenti API di sintesi vocale (text-to-speech), un insieme di strumenti che permettono di clonare la voce di chiunque.

Strumenti del genere non sono nuovi ma con questo di OpenAI basta partire da un campione di 15 secondi di parlato per creare una copia sintetica, utilizzabile in vari contesti. Lo strumento in questione sarà utilizzabile a pagamento; non è per il momento disponibile ma lo sarà in futuro e OpenAI riferisce di voler procedere in modo etico (per evitare abusi del modello AI).

Il modello in questione è già sfruttato in alcuni servizi di OpenAI come ad esempio le funzioni di lettura ad alta voce di ChatGPT e terze parti come Spotify hanno avuto modo di provarlo in anteprima, sfruttandolo per doppiare podcast come quello di Lex Fridman in più lingue. Tra i possibili esempi di utilizzo, gli sviluppatori evidenziano la lettura automatica e il doppiaggio ma tool del genere sono utili anche in ambito accessibilità, per restituire la voce a chi l’ha persa. OpenAI indica l’esempio di un giovane paziente non più in grado di parlare in modo scorrevole a causa di un tumore cerebrale e che, grazie a tecnologia come questa, può riprodurre testi usando la sua voce originale. Apple offre una tecnologia simile a quest’ultima con la funzione “Voce personale”, disponibile con iOS 17, iPadOS 17 e macOS Sonoma, permettendo a persone a rischio di afonia di creare una voce che assomiglia alla loro seguendo una serie di indicazioni testuali ma la procedura di Apple richiede la registrazione di 15 minuti di audio. Il modello di Apple, inoltre, al momento funziona solo in inglese (miglioramenti potrebbero arrivare nell’ambito della WWDC di giugno, con l’AI prevista al centro della conferenza sviluppatori con novità integrate nei futuri sistemi operativi).

Whisper è una IA per il riconoscimento vocale open source e multilingua — Foto di Soundtrap su Unsplash

I prezzi per sfruttare la clonazione vocale di Open AI in ambiti come il doppiaggio o la lettura non sono stati ufficializzati ma il sito TechCrunch riferisce di 15$ per un milione di caratteri o ~162.500 parole, abbastanza per leggere un romanzo come Oliver Twist.

Sul versante sicurezza (la voce clonata potrebbe essere usata per truffe e registrazioni fake), OpenAI riferisce di avere previsto un sistema di filigrana digitale che permette di individuare registrazioni create con la voce clonate e di “misure di mitigazione per questi scenari”.

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.