Questo sito contiene link di affiliazione per cui può essere compensato

Home » Hi-Tech » Internet » AI di Microsoft può riprodurre la voce di chiunque ascoltandola per 3 secondi

AI di Microsoft può riprodurre la voce di chiunque ascoltandola per 3 secondi

Pubblicità

Ricercatori di Microsoft hanno annunciato un nuovo sistema in grado di riprodurre un testo scritto usando la voce di chiunque facendo ascoltare all’AI un campione vocale di chi si desidera “imitare” per 3 secondi.

VALL-E – questo il nome dell’intelligenza artificiale – è in grado di imitare la voce di chiunque, ascoltando per almeno 3 secondi una qualunque frase pronunciata, riuscendo a riprodurre timbro, tono ed emotività dello speaker (rabbia, noia, disgusto, ecc.). Secondo gli ideatori del sistema, VALL-E potrebbe essere usata per applicazioni text-to-speech di qualità, modificare il parlato in fase di editing senza bisogno dell’intervento del diretto interessato oltre che ovviamente integrato con altri modelli IA come GPT-3, modello che utilizza il deep learning per creare testi simili a quelli che verrebbero scritti da un essere umano.

Microsoft definisce VALL-E un “modello di codec neurale di linguaggio” e si basa su una tecnologia denominata EnCodec che Meta ha annunciato a ottobre dello scorso anno. Al contrario di altre tecnologie text-to-speech che consentono di ottenere il parlato manipolando forme d’onda (come quella ad esempio integrata di serie in macOS), VALL-E è in grado di generare in pochissimo la tempo la voce con la dizione che avrebbe un oratore, analizzando il parlato originale, le micropause, ecc., simulando anche eventuali interferenze sonore presenti nella voce di partenza (es. una voce che parla in un ambiente esterno, al telefono, in un ristorante, ecc.).

L’IA è stata addestrata usando oltre 60.000 ore di parlato in lingua inglese di migliaia di persone diverse (principalmente letture di audiolibri di dominio pubblico), ed è possibile ottenere risultati che il più delle volte sono indistinguibili da quello che si otterrebbe facendo pronunciare le stesse frasi alle persone imitate.

Whisper è una IA per il riconoscimento vocale open source e multilingua

Tra i rischi di simili tecnologie, la possibilità di camuffare voci e fingersi altre persone. Per mitigare tali rischi, gli sviluppatori riferiscono la possibilità di creare modelli di rilevamento in grado di discernere audio veri e audio falsi. Il codice sorgente non è open source, forse per via dei potenziali rischi insiti in un sistema e a questo proposito Microsoft ha riferito che intende seguire i “principi Microsoft dell’intelligenza artificiale” in ogni ulteriore sviluppo”.

Nell’ottobre de 2022 il nostro Garante per la protezione dei dati personali aveva aperto un’istruttoria nei confronti della società che fornisce l’app Fakeyou che consente già ora di riprodurre file di testo mediante voci false, ma realistiche, di personaggi noti, anche italiani.

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.

Offerte Apple e Tecnologia

Le offerte dell'ultimo minuto le trovi nel nostro canale Telegram

Offerte Speciali

Dieci regali Apple da acquistare su Amazon con consegna prima di Natale

I migliori prodotti Apple con sconto su Amazon e che arrivano entro Natale

Arrivano in tempo per i vostri acquisti di fine anno. Comodissimi per chiudere un bilancio con le spese più utili per il lavoro.
Pubblicità

Ultimi articoli

Pubblicità