AI di Microsoft può riprodurre la voce di chiunque ascoltandola per 3 secondi

11 Gen 2023

Nuovo strumento IA può riprodurre la voce di chiunque sentendola per 3 secondi — Foto: Viktoria Blomberg Book - Unsplash

Ricercatori di Microsoft hanno annunciato un nuovo sistema in grado di riprodurre un testo scritto usando la voce di chiunque facendo ascoltare all’AI un campione vocale di chi si desidera “imitare” per 3 secondi.

VALL-E – questo il nome dell’intelligenza artificiale – è in grado di imitare la voce di chiunque, ascoltando per almeno 3 secondi una qualunque frase pronunciata, riuscendo a riprodurre timbro, tono ed emotività dello speaker (rabbia, noia, disgusto, ecc.). Secondo gli ideatori del sistema, VALL-E potrebbe essere usata per applicazioni text-to-speech di qualità, modificare il parlato in fase di editing senza bisogno dell’intervento del diretto interessato oltre che ovviamente integrato con altri modelli IA come GPT-3, modello che utilizza il deep learning per creare testi simili a quelli che verrebbero scritti da un essere umano.

Microsoft definisce VALL-E un “modello di codec neurale di linguaggio” e si basa su una tecnologia denominata EnCodec che Meta ha annunciato a ottobre dello scorso anno. Al contrario di altre tecnologie text-to-speech che consentono di ottenere il parlato manipolando forme d’onda (come quella ad esempio integrata di serie in macOS), VALL-E è in grado di generare in pochissimo la tempo la voce con la dizione che avrebbe un oratore, analizzando il parlato originale, le micropause, ecc., simulando anche eventuali interferenze sonore presenti nella voce di partenza (es. una voce che parla in un ambiente esterno, al telefono, in un ristorante, ecc.).

L’IA è stata addestrata usando oltre 60.000 ore di parlato in lingua inglese di migliaia di persone diverse (principalmente letture di audiolibri di dominio pubblico), ed è possibile ottenere risultati che il più delle volte sono indistinguibili da quello che si otterrebbe facendo pronunciare le stesse frasi alle persone imitate.

Tra i rischi di simili tecnologie, la possibilità di camuffare voci e fingersi altre persone. Per mitigare tali rischi, gli sviluppatori riferiscono la possibilità di creare modelli di rilevamento in grado di discernere audio veri e audio falsi. Il codice sorgente non è open source, forse per via dei potenziali rischi insiti in un sistema e a questo proposito Microsoft ha riferito che intende seguire i “principi Microsoft dell’intelligenza artificiale” in ogni ulteriore sviluppo”.

Nell’ottobre de 2022 il nostro Garante per la protezione dei dati personali aveva aperto un’istruttoria nei confronti della società che fornisce l’app Fakeyou che consente già ora di riprodurre file di testo mediante voci false, ma realistiche, di personaggi noti, anche italiani.

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.

Offerte Speciali

Tags
Intelligenza Artificiale

Articolo precedente

Apple vuole produrre in proprio i display di Apple Watch e iPhone

Articolo successivo

Secondo Ming-Chi Kuo, MacBook con display OLED nel 2024

AI di Microsoft può riprodurre la voce di chiunque ascoltandola per 3 secondi

Offerte Apple e Tecnologia

Offerte Speciali

I migliori prodotti Apple con sconto su Amazon e che arrivano entro Natale

Ultimi articoli

Rowenta X-PERT 6.60 Essential, scopa elettrica con accessori e LED, solo 109,99 €

Usare Airtag per non perdere la valigia, tutto quello che vi serve sapere

Filmate come a Hollywood con il gimbal DJI Osmo Mobile 6 a 99,99 al minimo storico

Cavo USB-C da 10 Gbps, perfetto per iPhone Pro, iPad e Mac in saldo a 11,39 €

Come realizzare foto a lunga esposizione con iOS 17 e iOS 18

Strumenti Bosch per professionisti, fai-da-te e giardino per la pausa natalizia

Apple Watch Ultra 2 scontato di 50€ e arriva domani

iPhone facile come un Brondi con la modalità segreta di iOS 17 e iOS 18

Caricabatterie ad alta velocità, due in uno a solo 27,99 €

ECOVACS N20 PRO Plus, il robot di Natale in sconto a 349 euro

Cinque estensioni utili per Safari su Mac

Sveglia digitale in legno, minimalismo da comodino al prezzo di un caffè

AI di Microsoft può riprodurre la voce di chiunque ascoltandola per 3 secondi

Offerte Apple e Tecnologia

Offerte Speciali

Altri articoli

Ultimi articoli