Estrarre la voce da una canzone già mixata è sempre stato considerato tecnicamente difficile, un po’ come provare a togliere l’uovo da una torta già cotta. I vecchi trucchi, come l’inversione di fase dei canali stereo, producevano risultati mediocri e funzionavano solo su pochi brani.
Oggi la situazione è cambiata radicalmente. Grazie a modelli di intelligenza artificiale addestrati su migliaia di ore di musica, un normale computer può prendere un MP3 qualsiasi e restituirti la voce isolata da una parte e la base strumentale dall’altra, con una qualità che fino a pochi anni fa richiedeva l’accesso ai master originali dello studio di registrazione.
La parte più interessante è che tutto questo non richiede abbonamenti né servizi cloud. Strumenti come Ultimate Vocal Remover (UVR) e Demucs sono gratuiti, open source e girano interamente in locale, quindi i tuoi file audio non lasciano mai il computer, non ci sono limiti di elaborazione e non dipendi dalla connessione.
In questa guida vedremo come installarli su Windows, macOS e Linux, quali modelli scegliere per ottenere i risultati migliori e in quali situazioni ha davvero senso usarli, dal karaoke fatto in casa allo studio di uno strumento, fino alla preparazione di remix e mashup. Vedremo anche, con onestà, dove questi programmi mostrano ancora i loro limiti.
Come fa l’AI a “smontare” una canzone
Un brano musicale mixato è un unico segnale audio in cui voce, batteria, basso e tutto il resto si sovrappongono.
I modelli di separazione delle sorgenti, questo il nome tecnico della categoria, sono reti neurali che hanno “ascoltato” durante l’addestramento migliaia di brani di cui conoscevano sia il mix finale sia le tracce separate. Con il tempo hanno imparato a riconoscere le caratteristiche tipiche di ogni elemento, ovvero come suona una voce umana, che forma ha il colpo di una cassa, dove vive il basso nello spettro delle frequenze. Quando ricevono una canzone nuova, applicano quella conoscenza per ricostruire le singole tracce.
Il progetto che ha reso popolare questo approccio è Demucs, sviluppato dai ricercatori di Meta e rilasciato come software libero. La sua quarta versione, chiamata HTDemucs (Hybrid Transformer Demucs), è ancora oggi un punto di riferimento per la qualità della separazione, soprattutto su batteria e basso.
Negli ultimi anni, però, la community è andata oltre. Architetture più recenti come BS-Roformer e MDX23C, nate anche grazie a competizioni internazionali dedicate alla separazione musicale, hanno alzato ulteriormente l’asticella sull’estrazione della voce, riducendo in modo netto gli artefatti metallici che affliggevano i primi modelli.
Qui entra in gioco Ultimate Vocal Remover. Non è un singolo modello, ma un’applicazione desktop con interfaccia grafica che raccoglie decine di modelli diversi, inclusi Demucs e i più recenti della famiglia Roformer, e ti permette di usarli senza toccare la riga di comando. In pratica è il coltellino svizzero della categoria, ed è il motivo per cui questa guida ruota principalmente attorno a lui.
Installare Ultimate Vocal Remover su Windows e macOS
Su Windows l’installazione è la parte facile dell’intera faccenda. Dal repository GitHub ufficiale del progetto, nella sezione Releases, trovi l’installer per Windows in formato .exe, che si scarica, si avvia e si segue come per qualsiasi altro programma. L’unica raccomandazione è di scaricare sempre dal repository ufficiale o dal sito del progetto, perché nel tempo sono spuntati siti cloni che impacchettano versioni non verificate.
Al primo avvio l’applicazione ti chiederà di scaricare i modelli. Sono file che pesano da poche decine di MB fino a oltre 1 GB, quindi metti in conto un po’ di attesa e qualche gigabyte di spazio su disco se vuoi provarne diversi.
Se hai una scheda video NVIDIA, vale la pena attivare l’opzione GPU Conversion nelle impostazioni. La differenza è drastica, perché una separazione che su CPU richiede diversi minuti si completa in una frazione del tempo. In assenza di GPU dedicata il programma funziona comunque, solo con più pazienza.
Su macOS il procedimento è simile. Nelle stesse Releases trovi i pacchetti .dmg, disponibili sia per i Mac con processore Apple Silicon (M1, M2 e successivi) sia per i vecchi modelli Intel. Poiché l’app non proviene dall’App Store, alla prima apertura macOS potrebbe bloccarla. In tal caso basta fare clic destro sull’icona, scegliere “Apri” e confermare, oppure autorizzarla da Impostazioni di Sistema → Privacy e Sicurezza. Sui Mac Apple Silicon l’accelerazione hardware è supportata e i tempi di elaborazione sono più che dignitosi anche sui modelli base.
Un consiglio pratico valido su entrambi i sistemi riguarda l’organizzazione dei file. Prima di lanciare la prima conversione, imposta una cartella di output dedicata dalle impostazioni, perché UVR genera almeno due file per ogni brano elaborato e, dopo qualche esperimento, ritrovarsi la cartella Musica invasa da file (Vocals) e (Instrumental) sparsi ovunque è questione di minuti.
Linux e riga di comando, la via Demucs
Su Linux UVR si può installare dai sorgenti, ma il procedimento richiede Python, alcune dipendenze di sistema e un minimo di dimestichezza con il terminale. Oppure c’è una strada più semplice e sorprendentemente comoda, cioè usare direttamente Demucs da riga di comando. Niente interfaccia grafica, è vero, ma in cambio ottieni un solo comando da ricordare e la possibilità di elaborare intere cartelle di brani in serie.
Il prerequisito è avere Python 3 installato, cosa praticamente scontata su qualsiasi distribuzione moderna. A quel punto ti conviene creare un ambiente virtuale, che è semplicemente una “scatola” isolata dove installare il programma senza toccare il resto del sistema:
# Crea e attiva l'ambiente virtuale
python3 -m venv ~/demucs-env
source ~/demucs-env/bin/activate
# Installa Demucs
pip install demucs
Da qui in poi, separare un brano è un comando solo:
# Separazione completa in 4 tracce: voce, batteria, basso, altro
demucs canzone.mp3
# Solo voce e base strumentale (ideale per il karaoke)
demucs --two-stems=vocals canzone.mp3
# Usa il modello più accurato (più lento, qualità superiore)
demucs -n htdemucs_ft canzone.mp3
# Output in MP3 invece che WAV, per risparmiare spazio
demucs --mp3 canzone.mp3
I file separati finiscono in una cartella separated creata nella posizione in cui lanci il comando, organizzata per modello e per brano. Al primo utilizzo Demucs scarica automaticamente il modello scelto, quindi la prima esecuzione richiede qualche minuto in più.
Anche qui la GPU fa la differenza. Se hai una scheda NVIDIA con i driver CUDA configurati, Demucs la usa da solo senza bisogno di opzioni particolari; altrimenti ripiega sulla CPU, dove un brano di quattro minuti può richiedere anche una decina di minuti con il modello più pesante. Questa stessa procedura, va detto, funziona identica anche su Windows e macOS, quindi se il terminale non ti spaventa è l’alternativa più leggera all’installazione dell’app completa.
Quale modello scegliere
Aprire UVR la prima volta può disorientare, perché ci sono più motori di elaborazione (MDX-Net, VR Architecture, Demucs) e dentro ciascuno decine di modelli con nomi criptici. La buona notizia è che per il 90% dei casi ti servono solo un paio di riferimenti, e qualche regola pratica per orientarti.
Se ti interessa soprattutto estrarre la voce o creare una base karaoke, i risultati migliori oggi arrivano dai modelli della famiglia BS-Roformer, scaricabili dal Download Center interno di UVR. Rispetto ai modelli di un paio di anni fa, la voce esce più pulita e la base strumentale conserva meglio riverberi e cori, che erano storicamente il punto debole. In alternativa, i modelli MDX-Net rimangono una scelta solida e più leggera per macchine meno potenti.
Se invece vuoi smontare l’intero brano, la scelta naturale è Demucs con il modello htdemucs_ft, che restituisce quattro tracce, ossia voce, batteria, basso e “other” (chitarre, tastiere, archi e tutto il resto). Esiste anche una variante a sei tracce, htdemucs_6s, che prova a isolare separatamente chitarra e pianoforte. Utile da provare, ma con risultati meno costanti rispetto alle quattro tracce classiche.
Un trucco che la community usa da tempo, e che ti consiglio di provare, è l’ensemble mode di UVR. Combina i risultati di due o più modelli e ne fa una media intelligente, smussando i difetti dell’uno con i punti di forza dell’altro. I tempi di elaborazione raddoppiano, ma sulla qualità finale si sente, soprattutto sui brani difficili come quelli con molta distorsione o produzioni molto dense.
Infine, un dettaglio spesso trascurato è che la qualità del file di partenza conta. Un FLAC o un MP3 a 320 kbps daranno sempre risultati migliori, perché gli artefatti di compressione confondono il modello.
Dal karaoke allo studio di uno strumento
Il caso più ovvio è il karaoke domestico, dove qualsiasi canzone diventa una base su cui cantare, senza dipendere dalle versioni instrumental ufficiali, che spesso non esistono. All’inverso, la traccia vocale isolata è la materia prima di remix, mashup e DJ set, un uso che ha reso questi software popolarissimi nella scena musicale amatoriale.
C’è poi un utilizzo meno appariscente ma forse più prezioso, ovvero lo studio di uno strumento. Se suoni il basso, poter ascoltare la linea di basso isolata di un brano che vuoi imparare è un vantaggio enorme rispetto a doverla “pescare” a orecchio dentro il mix completo. Lo stesso vale per un batterista che vuole analizzare un groove o per un chitarrista alle prese con un assolo sepolto nel missaggio. In modo simile, chi fa video può usare la separazione per ripulire tracce audio problematiche, ad esempio riducendo una musica di sottofondo che disturba un parlato.
Sul fronte legale conviene essere chiari, senza allarmismi. Separare le tracce di un brano protetto da copyright per uso personale, per studiare o cantarci sopra in salotto, non ha mai portato problemi a nessuno.
Diverso è il discorso della pubblicazione. Caricare su YouTube o Spotify un remix costruito su un’acapella estratta, senza autorizzazione dei detentori dei diritti, è una violazione a tutti gli effetti, e i sistemi automatici di riconoscimento come Content ID intercettano questi contenuti con facilità. La regola pratica è semplice, cioè in locale fai quello che vuoi, ma prima di pubblicare qualcosa che contiene materiale altrui serve una licenza o il consenso di chi possiede i diritti.
Uno strumento ormai maturo
La mia opinione è che la separazione delle sorgenti sia una di quelle tecnologie arrivate a maturazione quasi in sordina, mentre l’attenzione generale era tutta per chatbot e generatori di immagini. Il salto di qualità degli ultimi due anni, trainato dai modelli Roformer, è tangibile. Su una produzione pop moderna e pulita, la voce estratta è spesso indistinguibile da una traccia di studio.
Su registrazioni datate, live o molto sature, la separazione perde colpi, la voce può uscire con quel caratteristico effetto “acquoso” e la base strumentale può portarsi dietro residui vocali fantasma. Anche i cori complessi e le voci molto effettate restano terreno difficile.
Nulla di tutto questo cambia il giudizio complessivo. Per un software gratuito, open source e che funziona interamente offline, il rapporto tra quello che chiede e quello che restituisce è difficilmente criticabile. Il mio consiglio è di iniziare in piccolo, quindi installa UVR, scarica un modello Roformer, dai in pasto al programma una canzone che conosci a memoria e ascolta il risultato in cuffia. È il modo più rapido per capire, con le tue orecchie, quanto questa tecnologia sia diventata affidabile.













