Ricercatori dell’Università di Oxford hanno da tempo inventato e ora perfezionato un sistema di intelligenza artificiale in grado di leggere le labbra meglio degli esseri umani. Ne parla la BBC spiegando che il sistema è stato addestrato sfruttando migliaia di ore di programmi di BBC News ed è stato sviluppato in collaborazione con DeepMind, divisione britannica di Google che si occupa di intelligenza artificiale.
“Watch, Attend and Spell”, così il sistema è stato chiamato, è in grado di osservare le labbra e interpretare correttamente il 50% di parole pronunciate. Potrebbe sembra una percentuale bassa ma con gli stessi filmati, sottoposti a esperti nella lettura delle labbra, sono stati ottenute percentuali corrette solo per il 12% delle parole.
Joon Son Chung, dottorando del Dipartimento di ingegneria dell’Università di Oxford spiega le difficoltà di una simile impresa. «Parole come “mat”, “bat” e “pat” mostrano una forma simile sulla bocca». È il contesto ad aiutare il sistema – o un professionista nella lettura delle labbra, a capire qual è la parola pronunciata. “Ciò che il sistema fa”, spiega Joon, “è imparare a mettere insieme le cose, in questo caso associare il modo di muovere la bocca ai caratteri e quali saranno i caratteri che probabilmente saranno pronunciati”.
La BBC ha fornito ai ricercatori clip di vari programmi TV con sottotitoli allineati con i movimenti delle labbra degli speaker. Una rete neurale ha combinato immagini allo stato d’arte con il riconoscimento del parlato, imparando a leggere il labiale. Dopo avere esaminato 118,000 frasi, il sistema ha creato un vocabolario di 17.500 parole; essendo stato addestrato per comprendere il linguaggio dei notiziari, è piuttosto bravo ad associare la parola “Primo” a “Primo Ministro” e “Unione” a “Unione Europea” ma è meno bravo a capire parole non utilizzate nel linguaggio dei notiziari. C’è insomma del lavoro da fare ma il tutto è molto promettente e tra gli entusiasti del sistema ci sono le organizzazioni che curano gli interessi dei non udenti. Sistemi di questo tipo potrebbero essere sfruttati per automatizzare la creazione di sottotitoli, utili non solo ai non udenti ma anche per comprendere meglio un discorso da parte di uno straniero o favorire in genere chi non in grado di comprendere o ascoltare bene la lingua originale del programma (pensate, ad esempio, agli ambienti rumorosi). Il sistema al momento funziona solo con filmati già registrati ma Joon Son Chung fa capire che in futuro potrà funzionare anche in diretta, in tempo reale.