[banner]…[/banner]
YouTube dispone da lungo tempo di un sistema di sottotitoli che, grazie ai progressi negli algoritmi di apprendimento automatico di Google sviluppati e migliorati negli ultimi anni, ha ottenuto ottimi risultati nel trascrivere in automatico le parole pronunciate nei filmati. La società ha annunciato che ora la sua tecnologia è in grado non solo di sottotitolare le parole ma anche la presenza di effetti sonori come [risate], [applausi] e [musica], come succede da sempre nel caso dei programmi sottotitolati per i non udenti in televisione.
Per ora, però, i sottotitoli automatici per gli effetti sonori sono comunque limitati ai tre effetti citati: risate, applausi e musica. La ragione di questo limite, dice Google, è che questi sono anche esattamente i suoni che la maggior parte dei produttori di sottotitoli inseriscono manualmente. “Mentre lo spazio sonoro è, ovviamente, molto più ricco e offre molte più informazioni contestualmente rilevanti oltre a queste tre classi, l’informazione semantica trasmessa da questi effetti sonori nella traccia dei sottotitoli è relativamente inequivocabile, al contrario di suoni come [suonare] che solleva la questione di cosa possa essere: una campana? un allarme? un telefono?” dice l’ingegnere di Google Sourish Chaudhuri.
Il sistema di sottotitoli audio di YouTube si basa su un modello di rete neurale profonda istruita su un insieme di dati specifici. Ogni volta che un nuovo video viene caricato su YouTube, il nuovo sistema cerca di identificare questi suoni ed aggiungerne il testo corrispondente nei sottotitoli. Per chi volesse approfondire, ecco il post ufficiale di Google.