I ricercatori della divisione DeepMind AI di Google e l’Università di Oxford hanno usato l’intelligenza artificiale per creare il più accurato software di lettura labiale mai realizzato. Impiegando migliaia di ore di filmati TV della BBC, gli scienziati hanno addestrato una rete neurale per annotare riprese video con una precisione del 46,8 per cento.
Questo potrebbe non sembrare un dato particolarmente significativo ma vale la pena sottolineare che un essere umano che si è cimentato sullo stesso filmato è stato in grado di riconoscere le parole solo con una precisione del 12,4 per cento. La ricerca segue un lavoro simile pubblicato da un gruppo separato presso l’Università di Oxford all’inizio di questo mese. Utilizzando tecniche correlate, gli scienziati sono stati in grado di creare un programma di lettura labiale chiamato LipNet che ha raggiunto il 93,4 per cento di precisione nei test, rispetto al 52,3 per cento di accuratezza umana.
Tuttavia, LipNet è stato testato solo su filmati appositamente registrati che utilizzano volontari che pronunciano frasi stereotipate. In confronto, il software di DeepMind – noto come “Watch, Listen, Attend, and Spell” – è stato testato su filmati molto più impegnativi allo scopo di trascrivere conversazioni naturali dalla BBC.
Sono stati usati più di 5.000 ore di filmati da spettacoli televisivi per addestrare Watch, Listen, Attend, and Spell. I ricercatori di DeepMind suggeriscono che il programma potrebbe avere una serie di utili applicazioni, tra cui aiutare le persone con problemi di udito a capire le conversazioni. Potrebbe anche essere utilizzato per annotare film muti, o permettere di controllare gli assistenti digitali come Siri o Alexa semplicemente mimando le parole davanti alla fotocamera (utile se si sta utilizzando il programma in pubblico).
Più difficili invece la applicazioni nel campo della sorveglianza, dove spesso mancano le necessarie condizioni visive per poter cogliere con precisione i movimenti labiali e distinguere le parole: per il momento questo settore resta dunque fuori portata.