Lo scorso 8 Giugno Microsoft ha presentato su Arvix una documentazione su VALL-E 2, un’evoluzione del suo modello di sintesi vocale VALL-E basato sull’intelligenza artificiale. Questa nuova versione segna un traguardo significativo. Raggiunge per la prima volta prestazioni paragonabili a quelle umane nella generazione di parlato a partire da testo. VALL-E 2 introduce due innovazioni chiave che migliorano la stabilità e l’efficienza del processo di sintesi vocale.
- Campionamento consapevole delle ripetizioni. Questo metodo tiene conto delle ripetizioni di parole durante la generazione del parlato; quindi evita loop infiniti e migliora la stabilità complessiva.
- Modellazione dei codici raggruppati. Questa tecnica raggruppa i codici audio in blocchi, riducendo la lunghezza delle sequenze da elaborare. Ciò accelera il processo di sintesi e affronta le sfide legate alla modellazione di sequenze molto lunghe.
VALL-E 2
Grazie a questi miglioramenti, VALL-E 2 è in grado di sintetizzare un parlato naturale e accurato, mantenendo l’identità del parlante anche per frasi complesse o ripetitive. A differenza dei modelli precedenti, non richiede dati di addestramento complessi, ma solo semplici coppie di trascrizioni e registrazioni audio. È il primo modello a raggiungere prestazioni paragonabili alla voce umana.
Questa tecnologia potrebbe avere molteplici utilizzi; per esempio, nelle chat di assistenza o per generare parlato per persone con afasia o sclerosi laterale amiotrofica.
VALL-E 2 consentirebbe di “catturare” e preservare la voce distintiva di una persona prima che venga compromessa da una malattia; quindi, ricrearla sinteticamente in seguito, offrendo uno strumento di comunicazione personalizzato e naturale. Questo potrebbe migliorare la qualità di vita di chi soffre di disturbi del linguaggio.
Tuttavia, comporta anche potenziali e seri rischi di abuso, come l’imitazione di voci specifiche o l’elusione dell’identificazione vocale.
Addestramento e inferenza di VALL-E 2
VALL-E 2 semplifica notevolmente il processo di raccolta e preparazione dei dati. Richiede solo semplici coppie di dati di trascrizione del parlato per l’addestramento. Durante l’addestramento, il modello ottimizza la verosimiglianza delle sequenze di codici raggruppati condizionate alle sequenze di testo corrispondenti.
Durante l’inferenza, dato un input di testo (contenente sia la trascrizione del prompt vocale che il testo da sintetizzare) e i codici codec raggruppati di un parlante non visto, che fungono da condizione e prompt, il modello può generare i codici codec raggruppati di destinazione con il contenuto corrispondente e la voce del parlante.
Il modello AR genera in modo autoregressive la prima sequenza di codici di destinazione. Mentre il modello non autoregressive (NAR) genera le rimanenti sequenze di codici in modo non autoregressive. Insieme, questi codici vengono utilizzati da un decodificatore codec audio per sintetizzare il segnale vocale di destinazione personalizzato.
Valutazione delle prestazioni
VALL-E 2 è stato valutato sui dataset LibriSpeech e VCTK. Ha dimostrando prestazioni superiori in termini di robustezza del parlato, naturalezza e somiglianza del parlante rispetto ai sistemi precedenti. È il primo modello a raggiungere la parità umana su questi benchmark, producendo un parlato di alta qualità; incluse le frasi complesse e ripetitive.
Sui dati di test LibriSpeech, VALL-E 2 ha superato VALL-E in termini di punteggi di somiglianza del parlante (SIM), tasso di errore delle parole (WER) e punteggio di opinione media sulla soppressione del rumore (DNSMOS). Grazie al campionamento consapevole delle ripetizioni, VALL-E 2 ha ottenuto un punteggio WER inferiore a quello del parlato di riferimento, indicando un’elevata fedeltà al testo fornito.
Nella valutazione soggettiva condotta da 20 madrelingua inglesi americani, VALL-E 2 ha superato VALL-E sia in termini di somiglianza del parlante (SMOS) che di naturalezza comparativa (CMOS). Ha raggiunto o addirittura superato le prestazioni del parlato di riferimento, quando si utilizza un prompt di 3 secondi.
Sul dataset VCTK, che presenta una maggiore sfida con parlanti di accenti diversi, VALL-E 2 ha superato VALL-E in termini di somiglianza del parlante e qualità del parlato. Grazie alla capacità di modellazione di contesti lunghi del metodo di modellazione dei codici raggruppati, VALL-E 2 ha ottenuto un notevole miglioramento delle prestazioni con un prompt di 10 secondi, specialmente per la somiglianza del parlante.
Conclusioni
VALL-E 2 rappresenta un traguardo significativo nella sintesi vocale zero-shot text-to-speech, raggiungendo per la prima volta la parità umana. Grazie al campionamento consapevole delle ripetizioni e alla modellazione dei codici raggruppati, VALL-E 2 è in grado di sintetizzare un parlato naturale e accurato, mantenendo l’identità del parlante anche per frasi complesse e ripetitive.
Mentre questo studio apre a innumerevoli possibilità, comporta anche potenziali rischi di abuso, come l’imitazione di voci specifiche o l’elusione dell’identificazione vocale. Sarà fondamentale implementare protocolli per garantire il consenso del parlante e migliorare i sistemi di identificazione vocale al fine di prevenire usi impropri.