Meta, la società precedentemente conosciuta come Facebook, ha appena annunciato un nuovo modello IA open source chiamato MAGNeT che può generare audio con qualità da studio fino a 7 volte più velocemente dei metodi precedenti. MAGNeT sta per “Masked Audio Generation using Non-autoregressive Transformers” e rappresenta un importante progresso nella generazione di audio da testo.
Diamo un’occhiata più da vicino al funzionamento di MAGNeT, ai progressi specifici che gli consentono di ottenere prestazioni così veloci e ad alcune delle potenziali applicazioni di questa nuova tecnologia.
Come funziona MAGNeT
MAGNeT è il primo modello IA non autoregressivo in grado di generare audio condizionale da testo a audio. I modelli autoregressivi generano l’audio passo dopo passo in base ai passaggi precedenti. Questo porta a una decodifica sequenziale lenta. Al contrario, MAGNeT può generare audio in parallelo su molti passaggi temporali simultaneamente.
Durante l’addestramento del modello, gli intervalli di token audio di input vengono mascherati. Così il modello ha il compito di prevedere gli intervalli mancanti in base al contesto circostante e alla condizione di testo. Al momento dell’inferenza, gli intervalli mancanti vengono gradualmente compilati nel corso di successive iterazioni di decodifica fino a quando non viene costruita l’intera sequenza.
Un’innovazione chiave è l’uso di un metodo di riquotazione iterativo, in cui un modello pre-addestrato esterno aiuta a classificare e selezionare le previsioni più probabili ad ogni passo. Ciò migliora notevolmente la coerenza e la qualità dell’audio finale.
Maggiore velocità
Trasformando il problema della generazione audio in un’attività di previsione degli intervalli e sfruttando i transformer non autoregressivi, MAGNeT è in grado di liberarsi della decodifica sequenziale lenta. Invece, più segmenti della sequenza audio possono essere previsti allo stesso tempo in tutto il contesto di attenzione del modello.
Nei test, MAGNeT ha ottenuto un’accelerazione 7x rispetto a un modello autoregressivo leader di dimensioni comparabili. Ciò significa che musica e audio ad alta fedeltà possono essere generati con latenze dell’ordine di centinaia di millisecondi piuttosto che di più secondi !
Le prestazioni più veloci sbloccano nuove possibilità per applicazioni interattive come software di modifica e creazione musicale e agenti conversazionali in cui il ritardo minimo è fondamentale. Consente anche di ridurre i costi per elaborare volumi più elevati di richieste di generazione audio.
MAGNeT: come mantiene la qualità
Uno svantaggio comune della generazione non autoregressiva è la qualità ridotta dell’output. MAGNeT supera questo problema attraverso un processo iterativo che alterna tra mascheratura degli intervalli e previsione del contenuto mancante.
Perfezionando gradualmente le regioni incerte su passaggi successivi, può incorporare un contesto e dipendenze più globali di una singola passata di generazione parallela. Un metodo di punteggio aiuta anche a filtrare i candidati di bassa qualità.
Nelle valutazioni, MAGNeT ha raggiunto una fedeltà audio sia alla pari delle metriche automatiche che nei giudizi umani. Ciò dimostra che i metodi non autoregressivi possono essere adattati per una generazione di sequenze condizionali di alta qualità.
Ampia gamma di applicazioni audio
I progressi di MAGNeT potrebbero giovare a molte applicazioni di generazione audio e musicale, tra cui:
- Strumenti creativi per produrre effetti sonori, colonne sonore o musica
- Sintesi vocale text-to-speech per sistemi di dialogo
- Didascalie audio generate automaticamente per l’accessibilità
- Generazione a bassa latenza di playlist e raccomandazioni musicali
- Generazione di melodie vocali su misura per i testi delle canzoni
MAGNeT include una serie di modelli adatta sia alla generazione incondizionata che altamente condizionale in diversi domini audio. E le velocità più elevate sbloccano più casi d’uso interattivi rispetto ai precedenti modelli text-to-audio.
Conclusione
Il modello MAGNeT di Meta rappresenta un passo notevole verso velocità di generazione audio estremamente rapide partendo da richieste testuali. Sfruttando transformer non autoregressivi, può generare risultati con qualità da studio fino a 7 volte più velocemente dei metodi precedenti.
Le innovazioni alla base di MAGNeT contribuiranno a guidare l’adozione in un’ampia gamma di applicazioni audio che vanno dalla produzione musicale all’accessibilità.