Google ha presentato SoundStream, un codec audio “neurale” end-to-end che promette alta qualità, indicato come adatto per la codifica di differenti tipologie di suoni, incluso il parlato in chiaro, il parlato in ambienti rumorosi, il parlato riprodotto in ambienti riverberanti, musiche e suoni ambientali.
Secondo Big G, si tratta del primo codec basato su intelligenza artificiale in grado di funzionare sia con il parlato, sia con la musica, sfruttabile per la codifica/decodifica in tempo reale su processori come quelli per gli smartphone.
I codec comprimono l’audio per ridurre la necessità di grandi capacità di storage e requisiti in termini di larghezza di banda. Idealmente, la decodifica dovrebbe offrire audio percettivamente indistinguibile da quello originale, con poca latenza (il tempo impiegato da un segnale per compiere il suo percorso). La maggiorparte dei codec effettua la compressione dati (e/o la decompressione in lettura) in modo da poter ridurre lo spazio di memorizzazione occupato a vantaggio della portabilità o della trasmissibilità del flusso codificato su un canale di comunicazione; questi si dividono in codec con perdita di informazione (lossy) e senza perdita di informazione (lossless). In quelli che sfruttano la compressione si eliminano frequenze normalmente non udibili dall’orecchio umano, con modalità differenti tenendo conto dell tipo di segnale che bisogna gestire e differenti algoritmi di codifica/compressione.
Lo scorso anno Google ha presentato Lyra, un codice pensato per la gestione audio con banda passante minima, nato da un approccio fortemente basato sul machine learning per ottimizzare al massimo i flussi audio. SoundStream estende questo concetto con tanto di encoder, decoder e sistemi di quantizzazione.
Nelle tradizionali pipeline per l’elaborazione audio, compressione e migliorie – come ad esempio la rimozione dei rumori di sottofondo – avviene per opera di moduli diversi. SoundStream è progettato per effettuare compressione e altre operazioni contemporaneamente. Impegnando solo 3 kbps, la qualità paragonabile – secondo Google – è paragonabile a quella dei migliori codec alternativi attualmente disponibili, superando i 12kbps di Opus e quella di altri approcci alternativi.
Big G avvisa che, al momento, SoundStream è ancora nelle fasi sperimentali. Una versione aggiornata di Lyra è ad ogni modo in programma, promettendo l’integrazione di componenti che offriranno qualità audio e ridurre allo stesso tempo la complessità di gestione.
Neil Zeghidour, ricercatore scientifico di Big G e il collaboratore Marco Tagliasacchi, parlano di questo codec come di un importante passo verso il miglioramento di codec audio gestiti dall’apprendimento automatico, in grado di sbaragliare codec allo stato dell’arte quali Opus e EVS (Enhanced Voice Services), migliorare l’audio on-demand e che richiede il dispiegamento di un singolo modello scalabile..