L’audio digitale rappresenta il suono tramite una serie di valori discreti, chiamati campioni, che sono convertiti in una sequenza di numeri binari (0 e 1). Il metodo più utilizzato per rappresentare segnali audio in formato digitale è il PCM (Pulse Code Modulation) . È un tipo di modulazione utilizzata per convertire segnali analogici, come la musica o la voce, in segnali digitali che possono essere memorizzati, elaborati e trasmessi. Il processo di conversione implica due fasi principali: la quantizzazione e il campionamento. Nel campionamento, il segnale analogico viene misurato a intervalli regolari di tempo per produrre una sequenza di valori discreti. Durante la quantizzazione, questi valori vengono arrotondati a un insieme limitato di valori possibili, che vengono poi rappresentati come numeri binari. Dopo la rappresentazione in segnale audio digitale PCM il file può essere inviato senza compressione alcuna oppure compresso cercando comunque di mantenere la qualità audio entro valori accettabili.
Vediamo quali sono i formati audio compressi o non compressi su cui il suono può essere memorizzato o riprodotto.
Formati audio non compressi: 2 canali stereoLossless Audio 2 canali stereo per la riproduzione audio musicale
I formati audio non compressi sono quelli che conservano l’intero segnale audio senza alcuna perdita di qualità. Ecco alcuni dei formati audio non compressi più popolari:
- WAV: Il formato WAV (Waveform Audio File Format) è uno dei formati audio non compressi più diffusi, in particolare su sistemi Windows. È stato sviluppato da Microsoft e IBM ed è spesso utilizzato per la registrazione e l’editing audio in alta qualità.
- AIFF: L’AIFF (Audio Interchange File Format) è un formato audio non compresso simile al WAV, ma sviluppato da Apple. È comunemente utilizzato su sistemi Mac e in applicazioni audio professionali come Logic Pro e Pro Tools.
- FLAC: Il FLAC (Free Lossless Audio Codec) è un formato audio compresso lossless, il che significa che, nonostante la compressione, non ci sono perdite di qualità audio. Anche se tecnicamente non è un formato non compresso, il FLAC conserva la qualità audio originale e viene spesso considerato una valida alternativa ai formati WAV e AIFF quando lo spazio di archiviazione è una preoccupazione. FLAC supporta una vasta gamma di frequenze di campionamento audio, tra cui 44,1 kHz, 48 kHz, 88,2 kHz, 96 kHz, 176,4 kHz e 192 kHz. La frequenza di campionamento audio più comune per il formato FLAC è 44,1 kHz, che è la stessa frequenza utilizzata per i CD audio. FLAC supporta bit di profondità di 4, 8, 12, 16, 20 e 24 bit, ma i più comuni sono 16 e 24 bit.
- DSD: Il DSD (Direct Stream Digital) è un altro metodo di rappresentazione di segnali audio in formato digitale basato sulla modulazione delta-sigma. Anche se meno comune rispetto ai formati PCM come WAV e AIFF, il DSD viene utilizzato in alcuni dispositivi audio ad alta risoluzione e in formati come il SACD (Super Audio CD).
- ALAC: formato audio lossless creato da Apple. Nonostante l’ALAC sia un formato compresso, viene considerato un formato audio di alta qualità, simile ai formati audio non compressi come AIFF e WAV, a causa della sua capacità di ripristinare il segnale audio originale senza perdite. Anche se l’ALAC utilizza la compressione, è in grado di ripristinare esattamente il segnale audio originale durante la riproduzione, mantenendo la qualità audio intatta. L’ALAC è compatibile con i dispositivi e il software Apple, come iTunes, iPod e iPhone, e può essere utilizzato come un’alternativa al formato AIFF quando si desidera risparmiare spazio di archiviazione senza sacrificare la qualità del suono. ALAC supporta bit di profondità di 16, 20 e 24 bit, ma il più comune è 16 bit. ALAC supporta le seguenti gamme di frequenze di campionamento audio 44,1 kHz, 48 kHz, 88,2 kHz, 96 kHz, 176,4 kHz e 192 kHz.
Formati audio non compressi: multicanaleLossless Audio multicanale per la riproduzione audio di film o musica multicanale
- DSD multicanale: Il DSD (Direct Stream Digital) è un formato audio digitale basato sulla modulazione delta-sigma che può essere utilizzato anche per l’audio surround multicanale. Il formato SACD (Super Audio CD) utilizza il DSD multicanale per offrire un’esperienza audio surround ad alta risoluzione.
- Dolby TrueHD multicanale : Dolby TrueHD è un formato audio multicanale lossless sviluppato da Dolby Laboratories. È stato progettato per offrire una qualità audio superiore rispetto ai formati audio lossy come Dolby Digital e Dolby Digital Plus. Poiché Dolby TrueHD è un formato lossless, mantiene l’intera qualità del suono originale senza perdite, offrendo un’esperienza audio di alta qualità e fedele alla registrazione originale. Dolby TrueHD è comunemente utilizzato nelle produzioni di dischi Blu-ray e Ultra HD Blu-ray per offrire una qualità audio superiore per i film e i contenuti di intrattenimento domestico. Supporta fino a 7.1 canali audio surround e può anche trasportare metadati Dolby Atmos. Dolby Atmos è una tecnologia audio che permette di riprodurre audio effetti tridimensionali.
- DTS-HD Master Audio : un formato audio multicanale lossless ad alta definizione sviluppato da Digital Theater Systems, Inc. (DTS). È stato progettato per offrire una qualità audio superiore rispetto ai formati audio lossy e viene utilizzato principalmente per l’intrattenimento domestico, come film su dischi Blu-ray e Ultra HD Blu-ray. DTS-HD Master Audio preserva la qualità del suono originale senza perdite, garantendo un’esperienza audio di alta qualità e fedele alla registrazione originale. La tecnologia supporta fino a 7.1 canali audio surround e campionamenti audio ad alta risoluzione. Il DTS-HD Master Audio può trasportare anche metadati DTS:X . DTS:X è una tecnologia audio che permette di riprodurre audio effetti tridimensionali ( è la risposta al Dolby Atmos di Dolby Dolby TrueHD .
Formati audio compressi: 2 canali stereoLossy Audio 2 canali stereo per la riproduzione musicale
I formati audio compressi sono stati pensati per ridurre la dimensione dei file audio sacrificando una parte della qualità del suono. Ecco alcuni dei formati audio compressi più popolari:
- MP3: Il formato MP3 (MPEG-1 Audio Layer 3) è uno dei formati audio compressi più comuni e ampiamente utilizzati. È un formato lossy, il che significa che alcuni dati audio vengono persi durante la compressione. L’MP3 offre un buon equilibrio tra qualità del suono e dimensione del file ed è compatibile con quasi tutti i dispositivi e i software di riproduzione audio. Per chi è appasionato di fotografia possiamo dire che FLAC sta a RAW come MP3 sta a JPG .
- AAC: L’AAC (Advanced Audio Coding) è un altro formato audio compresso lossy sviluppato come successore dell’MP3. Offre una migliore qualità del suono a parità di dimensioni del file rispetto all’MP3 ed è il formato audio standard per YouTube, iPhone, iPod, iPad, Nintendo Switch e PlayStation.
- Ogg Vorbis: Ogg Vorbis è un formato audio compresso lossy open source che offre una qualità del suono simile o superiore all’MP3 a parità di dimensioni del file. È utilizzato in alcune applicazioni e giochi, nonché da servizi di streaming come Spotify.
- WMA: Il WMA (Windows Media Audio) è un formato audio compresso lossy sviluppato da Microsoft. È simile all’MP3 in termini di qualità del suono e dimensioni del file ed è compatibile con la maggior parte dei dispositivi Windows e con alcuni dispositivi non-Windows.
- MQA : acronimo di Master Quality Authenticated è un formato di codifica audio sviluppato dall’azienda britannica Meridian Audio. MQA è stato progettato per fornire una qualità audio superiore rispetto ad altri formati di compressione audio senza aumentare significativamente la dimensione del file. MQA utilizza una tecnologia di codifica a compressione variabile, che adatta la quantità di dati necessaria per la rappresentazione del segnale audio alle caratteristiche dello stesso. In questo modo, il formato MQA è in grado di rappresentare in modo più accurato le dinamiche del segnale audio, mantenendo allo stesso tempo una dimensione del file relativamente ridotta. MQA supporta anche la codifica a 24 bit e frequenze di campionamento fino a 384 kHz, il che permette di ottenere una qualità audio ad alta risoluzione. MQA supporta l’embedding di metadati e informazioni di autenticazione nel file audio, che consentono di verificare l’autenticità del file e garantire la qualità dell’audio riprodotto.
Formati audio compressi: multicanaleLossy Audio multicanale per la riproduzione audio multicanale di film e musica
- Opus: Opus è un formato audio compresso lossy sviluppato dalla fondazione Xiph.Org e da altre organizzazioni. È progettato per offrire una qualità audio eccellente per una vasta gamma di bit rate e viene utilizzato in applicazioni come VoIP, videoconferenze e streaming in tempo reale.
- Dolby Digital (AC-3) e Dolby Digital Plus (E-AC-3): formati audio compressi lossy sviluppati da Dolby Laboratories per l’audio surround multicanale. Sono comunemente utilizzati nei DVD, nei Blu-ray e nelle trasmissioni televisive.
- DTS Digital Surround, DTS-ES, DTS-HD High Resolution Audio e DTS Express : formati audio compressi lossy sviluppati da DTS per l’audio surround multicanale. Sono comunemente utilizzati nei DVD, nei Blu-ray e nelle trasmissioni televisive.
Frequenze di campionatura audio
La frequenza di campionatura audio è una delle principali specifiche utilizzate per descrivere la qualità del suono.
Per esempio potete ascoltare un file FLAC di 192 khz / 24 Bit . Cosa sono quei 192 Khz ?
Rappresenta il numero di volte al secondo in cui il segnale audio viene misurato e viene espressa in K hertz (KHz) , quindi 192Khz sono 192000 misurazioni al secondo. Una frequenza di campionatura più elevata significa che vengono registrati e riprodotti più campioni audio ogni secondo, il che può portare a una maggiore qualità del suono ma anche al trasporto di quantità di dati molto elevata.
Per esempio, se consideriamo un file audio FLAC di 1 minuto registrato a una frequenza di campionamento di 44,1 kHz e con una profondità di bit di 16 bit, la dimensione media di un file audio FLAC di 1 minuto con queste specifiche è di circa 10 MB. Se invece consideriamo un file audio FLAC di 1 minuto registrato a una frequenza di campionamento di 192 kHz e con una profondità di bit di 24 bit, la dimensione media del file audio sarebbe di circa 50-60 MB !.
Vediamo quali sono le frequenze di campionatura audio più utilizzate.
44,1 kHz : la frequenza di campionatura audio più comune è di 44,1 kHz. È la stessa frequenza utilizzata per i CD audio e rappresenta il numero di campioni audio registrati o riprodotti ogni secondo. In altre parole, il segnale audio viene campionato 44.100 volte al secondo. Questa frequenza è utilizzata in molti formati audio, come FLAC, MP3, AAC, WMA e altri. Amazon Music HD usa questa frequenza di campionatura. Tidal in versione HI-FI usa questa campionatura .
96 kHz : questa frequenza viene utilizzata in molti formati audio di alta qualità, come il formato DVD-Audio e il formato Blu-ray. Offre una maggiore qualità del suono rispetto alle frequenze di campionatura audio inferiori. Questa frequenza è utilizzata in formati audio lossless come FLAC, ALAC e WAV. I formati audio Hi-Res dei servizi di streaming più famosi usano questa frequenza o la 192 Khz.
192 kHz: la frequenza di campionatura audio più elevata disponibile. Questa frequenza viene utilizzata in alcuni formati audio di alta qualità, come il formato DVD-Audio e il formato Blu-ray. Offre la massima qualità del suono disponibile. Anche questa frequenza è utilizzata in formati audio lossless come FLAC, ALAC e WAV. I formati audio Hi-Res o HD dei servizi di streaming più famosi usano questa frequenza, Amazon Music Ultra-HD usa questa frequenza; anche Tidal Master usa questa frequenza, ma con il formato audio MQA che richiede un DAC MQA dedicato (!).
La campionatura audio elevata è giustificata ?
Esiste un dibattito tra gli audiofili e gli esperti di audio sulla capacità dell’orecchio umano di discernere la differenza tra diverse frequenze di campionamento audio, inclusi i valori estremi come 44,1 kHz e 192 kHz. Mentre alcuni sostengono che le frequenze di campionamento audio più elevate offrono una maggiore qualità del suono, altri sostengono che l’orecchio umano non è in grado di distinguere le differenze tra le frequenze di campionamento audio estreme. Sono un pò come le diatribe sulle frequenze dei monitor per PC, hanno senso monitor per videogamers con frequenze oltre 120Hz ?
Difficilmente la differenza di qualità del suono tra una frequenza di campionamento audio di 44,1 kHz e una di 192 kHz sarà percepibile dalla maggior parte delle persone, anche se alcuni audiofili e produttori di musica professionisti sostengono il contrario. Se volete approfondire l’argomento potete leggere questo articolo interessante scritto da Christopher Montgomery della Xiph.org Foundation. La fondazione Xiph.Org è stata una delle organizzazioni che ha contribuito allo sviluppo del formato di file audio lossless FLAC (Free Lossless Audio Codec) nonchè diversi codec audio e video open source, tra cui Vorbis, Theora e Opus.
Sicuramente la differenza potrebbe essere percepita tra un audio compresso (magari con compressioni troppo elevate) e un audio non compresso .
Profondità di Bit audio
Un’altra specifica che vedete nei formati audio descritti sopra è la profondità dei Bit audio.
Per esempio potete ascoltare un file FLAC di 192 khz / 24 Bit . Cosa sono quei 24 Bit ?
La profondità di bit è la precisione con cui un segnale audio viene registrato e rappresentato in formato digitale. In altre parole, la profondità di bit indica quanti bit di informazione vengono utilizzati per rappresentare ogni campione di un segnale audio.
In un file audio digitale, ogni campione audio viene rappresentato da un certo numero di bit, che può variare in base alla profondità di bit del file. La profondità di bit più comune nei file audio digitali è 16 bit, ma possono essere utilizzati anche 24 bit, 32 bit e addirittura 64 bit (questi ultimi due non comuni).
Maggiore è la profondità di bit, maggiore sarà la precisione con cui il segnale audio viene rappresentato. Più bit sono utilizzati per rappresentare ogni campione, maggiore sarà il numero di gradini di volume disponibili. Ogni gradino rappresenta un intervallo di ampiezza che viene misurato in decibel (dB), che è l’unità di misura utilizzata per esprimere la dinamica del suono.
Si può calcolare la dinamica massima di un file audio digitale con la seguente formula:
Dinamica (in dB) = 20 * log10(2^n)
dove “n” è il numero di bit utilizzati per rappresentare ogni campione audio.
Quindi un file audio con una profondità di 16 bit può rappresentare 2^16 = 65.536 gradini di volume diversi, il che equivale a una dinamica massima di circa 96 dB. Un file audio con una profondità di 24 bit può rappresentare 2^24 = 16.777.216 gradini di volume diversi, il che equivale a una dinamica massima teorica di circa 144 dB.
E’ importante notare che la dinamica massima di un file audio non è necessariamente la stessa della dinamica effettiva del contenuto del file. La dinamica effettiva dipende dal contenuto del file e dal modo in cui è stato registrato e mixato.
Un numero maggiore di bit permette di ridurre il rumore di quantizzazione . Il rumore di quantizzazione è un tipo di rumore introdotto durante la conversione analogico-digitale di un segnale audio, a causa di possibili e inevitabili imprecisioni del processo di campionamento. Il rumore di quantizzazione può essere ridotto mediante l’utilizzo di tecniche di dithering, che distribuiscono l’errore di approssimazione in modo più uniforme su tutta la gamma dinamica del segnale e diminuisce ulteriormente incrementando i Bit di campionatura.
Così come con l’aumento di frequenza di campionatura aumentano i dati audio anche un aumento della profondità dei Bit aumentano i dati audio. Per esempio, il passaggio da 16 a 24 bit richiede un aumento di circa il 50% della dimensione di un file audio FLAC.
Quali formati audio scegliere per una migliore esperienza di ascolto
Per quanto riguarda l’audio stereo (ascolto di musica) , il FLAC, l’ALAC e il WAV sono le opzioni migliori. Le frequenze di campionatura di questi formati devono essere almeno 44Khz/16Bit. Teoricamente 192Khz/24 bit dovrebbero riprodurre un suono migliore.
Tra i formati audio lossy il migliore è l’MQA usato anche da Tidal nel sua opzione alta fedeltà Hi-Res .
L’MQA richiede un DCA/ricevitore che supporti la ricezione di dati MQA.
Per quanto riguarda l’audio multicanale (ascolto di film su più diffusori) le soluzioni migliori sono DTS-HD Master Audio oppure Dolby TrueHD .
Assicurati che tutta la musica che ascolti sia stata campionata almeno a 44.1kHz (44100Hz). Questa frequenza riproduce le frequenze audio fino a 22050 Hz, al di sopra del limite dell’udito umano (~20 kHz).
Bitrate ?
Per complicare ulteriormente le cose molti servizi di streaming audio anziché fornire
campionatura di frequenza e profondità Bit, forniscono la qualità in base al Bitrate !
Il bitrate si riferisce alla quantità di dati audio che vengono trasmessi o registrati in un determinato intervallo di tempo. In genere, il bitrate viene misurato in kilobit al secondo (kbps) e rappresenta il tasso di trasferimento dei dati audio. Più alto è il bitrate, maggiore è la quantità di dati audio trasmessi in un dato intervallo di tempo e quindi maggiore è la qualità audio.
Per esempio, il servizio Master di Tidal che offre qualità di riproduzione a 2304-9216 Kbps (Bitrate)
corrisponde al 192 khz / 24 Bit . Ricordate che per avere almeno i 44Khz/16Bit serve un Bitrate di circa 1411 kbps, mentre per un 192 khz / 24 Bit serve un bitrate di almeno 4608 kbps (ovvero la vostra connessione internet deve essere di almeno 4,5 Mbps).
MP3
Il primo formato audio compresso largamente utilizzato è stato il MP3 (MPEG-1 Audio Layer 3). Il formato MP3 è stato sviluppato nel corso degli anni ’90 dal gruppo Moving Picture Experts Group (MPEG) come parte dello standard MPEG-1 e successivamente migliorato nello standard MPEG-2.
Anche se per i puristi della musica l’MP3 è stato sempre sinonimo di scarsa qualità, il successo dell’MP3 fu dovuto a diversi fattori, tra cui la sua capacità di ridurre notevolmente la dimensione dei file audio mantenendo una qualità del suono accettabile. Questo lo ha reso particolarmente adatto per la distribuzione di musica su Internet (spesso in modo illegale, ricordate Napster?) e la memorizzazione di grandi quantità di musica su dispositivi di archiviazione digitale, come i computer e i lettori MP3 portatili del tempo. Anche grazie agli MP3 sono scomparse dalle automobili le autoradio con lettore CD/nastro .
L’MP3 è diventato sinonimo di musica digitale e ha rivoluzionato l’industria musicale, facilitando la condivisione e lo streaming di musica online. Anche se oggi esistono altri formati audio compressi, come AAC, WMA e Ogg Vorbis, l’MP3 rimane uno dei formati compressi più diffusi e ampiamente utilizzati.
E l’MP4 ? MP4 non è una versione migliorata o successiva di MP3 come alcuni pensano.
Un file MP4 è un’estensione multimediale completa, in grado di contenere audio, video e altri tipi di media. È importante notare che i file MP4 richiedono differenti codec per implementare il codice in modo artificiale e permetterne la lettura. Quindi gli MP4 sono molto utilizzati per riprodurre film e non musica.
NAPSTER fu il primo esperimento di streaming audio, ma illegale.
I nati prima del 1980 sicuramente ricorderanno il fenomeno Napster. Napster è stato un servizio di condivisione di file peer-to-peer (P2P) di file MP3 creato nel 1999 da Shawn Fanning, John Fanning e Sean Parker. Il servizio rendeva estremamente facile per gli utenti condividere e scaricare file MP3, senza alcun pagamento ai detentori dei diritti d’autore. Una sorta di Spotify in cui i file erano condivisi tra gli utenti ( in un modo simile al P2P torrent ) anziché risiedere su un unico server a cui è legalmente consentito condividere musica .
Napster guadagnò rapidamente popolarità, ma attirò anche l’attenzione dell’industria musicale e degli artisti, che avviarono una serie di cause legali contro la società ( famosa la causa portata avanti dal gruppo dei Metallica ). Alla fine, a causa delle violazioni del copyright, Napster fu costretto a chiudere il suo servizio di condivisione di file nel 2001.
Da allora, Napster è stato acquisito e rilanciato come un servizio di streaming musicale legale, simile a Spotify e Apple Music. Il Napster originale è spesso ricordato come uno dei pionieri della condivisione di file P2P e come un catalizzatore per le trasformazioni nell’industria musicale, che ha dovuto adattarsi all’era digitale e alle nuove modalità di distribuzione e consumo della musica.
Nel 2020, MelodyVR, una società specializzata nella realtà virtuale, ha acquisito Napster per espandere ulteriormente la propria offerta di servizi e raggiungere un pubblico più ampio. Dopo l’acquisizione, la società ha cambiato il suo nome in Napster Group PLC.