Meta sta lavorando su nuove tecnologie di sintesi vocale, speech-to-text e text-to-speech (per l’interpretazione e la lettura automatica del parlato). L’azienda riferisce che gli attuali modelli di riconoscimento vocale riconoscono circa 100 lingue, una frazione delle oltre 7000 lingue parlate sulla Terra, ricordando che molti idiomi, tra l’altro, rischiano di scomparire, con poche persone ancora in grado di parlarli.
Un progetto denominato Massively Multilingual Speech (MMS) mira a combinare il framework wav2vec 2.0 (modello di apprendimento di Meta che consente di eseguire il training su dati non etichettati) con un nuovo dataset (registrazioni di grandi quantità di dati vocali) che dovrebbe portare alla comprensione di circa 4.000 lingue.
Tra le lingue supportate c’è il Tatuyo, parlato da un centinaio di persone in tutto il mondo, e altre lingue ancora per le quali non esistono tecnologie per la riproduzione con la sintesi vocale.
Secondo Meta, i suoi modelli Massively Multilingual Speech sono molto più efficienti rispetto ad altri e consentono di tenere conto di decine di lingue in più. Modelli addestrati ad hoc sono a quanto pare in grado di riconoscere oltre 4.000 lingue e di riprodurre la voce tramite sintesi in oltre 1.100 lingue.
L’azienda ha attinto a registrazioni audio di testi religiosi, inclusa la Bibbia, tradotti in centinaia di lingue, e le cui traduzioni sono state ampiamente studiate per ricerche sull’interpretazione. È stato creato un primo dataset con letture del Nuovo Testamento in oltre 1100 lingue, ottenendo una media di 32 ore di dati per lingua, e successivamente incrementato il numero di testi di riferimento a 4000 lingue.
Benché i dati facciano riferimento a uno specifico ambito, e le letture siano spesso registrazioni di voci maschili, secondo Meta i modelli si comportano altrettanto bene sia nell’interpretazione delle voci maschili, sia di quelle femminili.
Anche il fatto che i testi di riferimento siano per lo più di carattere religioso, secondo Meta (qui i dettagli) non pregiudica i risultati ottenibili per via di quello che in gergo si chiama Connectionist Temporal Classification (CTC), un particolare output che è possibile ottenere dalle reti neurali ricorrenti nel processo continuo di accolto di dati per un certo periodo, tecnica che permette di interpretare gli output della rete neurale come una distribuzione di probabilità fra le varie classi.
I nuovi modelli non sono ancora completi e dovranno essere perfezionati, ma l’idea di fondo è interessante e utile per non rischiare di far scomparire un patrimonio. Secondo uno studio pubblicato dall’Unesco sulle lingue a rischio di estinzione, nella sola Europa solo un quarto di lingue diffuse viene considerato ufficiale e molte di queste sono a rischio estinzione (lingue germaniche, uraliche, finniche, celtiche, greche, turche, slave, romanze, occitane, ecc.).
Meta sta completando il nuovo visore Quest 3 in arrivo in autunno: qui una anticipazione delle caratteristiche hardware e funzionali, in vista della presentazione del primo visore Apple Reality Pro atteso alla WWDC 2023 lunedì 5 giugno. Qui tutto quello che Apple potrebbe presentare alla WWDC 2023.
Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet