Google lavora sempre incessantemente alla sua tecnologia di riconoscimento vocale: secondo quanto riportato dal Google Senior Fellow Jeff Dean il tasso di errore per parola di Google – ovvero la frequenza con cui Google trascrive una parola in modo errato – è sceso di oltre il 30 per cento rispetto al 2012.
Dean ha attribuito il miglioramento alla “aggiunta di reti neurali”, che sono sistemi che Google e altre aziende utilizzano come parte dei processi di apprendimento. Le persone allenano le reti neurali con una grande mole di dati, come frammenti di discorso, per poi portarle a fare inferenze sui nuovi dati.
Google ha messo in gioco le reti neurali per il riconoscimento vocale nel 2012, con il lancio di Android Jelly Bean; nel corso degli anni Mountain View non ha parlato spesso dei suoi progressi in questo importante settore, che riguarda un numero crescente di prodotti Google, dalla homepage di Google ad Home, l’altoparlante intelligente, per passare alla tastiera virtuale Gboard per Android e iOS.
Nel 2015, l’amministratore delegato di Google Sundar Pichai ha affermato che l’azienda aveva un tasso di errore per parola pari al otto per cento.
Nel mese di agosto scorso Alex Acero, senior director di Siri in Apple, ha detto di che il tasso di errore di Siri era stato generalmente ridotto di un fattore di due in tutte le lingue ma a più di un fattore due in molti casi; a settembre, Microsoft ha detto che i suoi ricercatori avevano raggiunto un tasso di errore per parola del 6,3 per cento rispetto ad un determinato benchmark.
I paragoni con la concorrenza sono in ogni caso poco significativi anche perché solitamente le dichiarazioni non specificano numeri assoluti e riguardano diversi paradigmi di studio, tra loro non sempre confrontabili.
Dean: The addition of neural nets has reduced the word error rate for speech recognition by more than 30%
— Karissa Bell (@karissabe) 11 gennaio 2017