Stability AI ha rilasciato da poche ore Stable Audio 2.0, l’ultima evoluzione del suo modello di intelligenza artificiale dedicato alla generazione di musica. Questo aggiornamento a Stable Audio 1.0 introduce una serie di funzionalità che ridefiniscono i confini della creatività musicale, offrendo agli artisti, ai musicisti e ai produttori nuovi strumenti per la creazione. La versione precedente di Stable Audio era stata segnalata dal Times come una delle migliori invenzioni IA nel 2023.
Stable Audio 2.0
Una delle novità più significative di Stable Audio 2.0 è la capacità di generare brani musicali completi della durata fino a tre minuti; offre una struttura coerente che include un’introduzione, uno sviluppo e una conclusione. Questi brani vengono prodotti in qualità stereo (audio CD) a 44,1 kHz. Un’elevata fedeltà audio e un’esperienza d’ascolto vicina ai migliori standard di produzione musicale.
L’innovazione di Stable Audio 2.0 introduce anche una funzionalità che permette di caricare campioni audio e trasformarli in nuove creazioni utilizzando prompt testuali. Questa caratteristica apre la strada a molteplici combinazioni di possibilità creative.
Artisti e produttori possono prendere ispirazione da qualsiasi suono, melodia o ritmo esistente (purché liberi da copyright); quindi plasmarli in nuove direzioni, creando melodie inedite, backing track, singoli strumenti, effetti sonori e altro ancora.
Un’altra funzionalità che distingue Stable Audio 2.0 è il trasferimento di stile. Questa opzione consente di modificare l’audio generato o caricato per allinearlo perfettamente con uno stile specifico, adattandolo alle esigenze di un determinato progetto musicale. Che si tratti di un genere particolare, di un’atmosfera specifica o di un’estetica sonora unica, il trasferimento di stile offre un livello di personalizzazione, permettendo di plasmare il suono in base alle proprie preferenze artistiche.
Stable Audio 2.0 e copyright
Stable Audio 2.0 è attenta ai diritti d’autore e al rispetto delle opere creative. Il modello è stato addestrato esclusivamente su un dataset di musica con licenza della libreria AudioSparx. Nella libreria ci sono oltre 800.000 file audio tra musica, effetti sonori e singoli strumenti. Nessun contenuto coperto da copyright è stato utilizzato durante il processo di addestramento.
Invece per prevenire eventuali violazioni del copyright durante l’utilizzo del servizio, Stability AI ha collaborato con Audible Magic. E’ stato implementato un sistema di riconoscimento dei contenuti audio. Questo sistema analizza in tempo reale i campioni audio caricati dagli utenti. In modo automatico blocca qualsiasi contenuto coperto da copyright per il rispetto dei diritti di autore degli artisti.
Stable Radio
Per celebrare il lancio della nuova versione, Stability AI ha lanciato il servizio Stable Radio, una diretta streaming 24/7 che trasmette esclusivamente brani generati da Stable Audio. Questa iniziativa rappresenta un’opportunità per esplorare le potenzialità del modello e valutare la qualità delle sue creazioni; un’esperienza musicale completamente nuova e senza precedenti che può piacere o essere odiata allo stesso tempo. Puoi ascoltare Stable Radio da questo canale Youtube.
Disponibilità Stable Audio 2.0
Puoi accedere gratuitamente a Stable Audio 2.0 attraverso il sito web StableAudio e iniziare a sperimentare. Come in Stable Audio 1.0 anche ora la versione gratuita è limitata da un numero di soli 20 crediti mensili; inoltre per alcune funzionalità avanzate è richiesta la versione a pagamento. A breve sarà disponibile anche un API per gli sviluppatori.
Con il piano gratuito puoi creare 20 tracce al mese e hai un licenza non commerciale. Con un piano a pagamento puoi creare molti più brani e hai una licenza commerciale. Puoi scegliere tra 3 piani a pagamento a partire da $11.99 al mese.
Utilizzo
Una volta eseguito il login e accettati i termini di servizio, ti trovi di fronte ad una dashboard. Qui ci sono 17 preimpostazioni di prompt nella libreria; mentre la diciottesima opzione finale “Surprise me” inserirà una delle 17 opzioni in modo casuale. Oppure in altro, a sinistra, puoi inserire un prompt testuale in inglese con la tua richiesta musicale.
Sotto il selettore della libreria di prompt è presente un selettore del modello. Puoi scegliere tra AudioSparx 1.0 o 2.0. Scendendo nell’elenco, troverai i controlli per la durata che già esistevano nella versione 1.0; oltre una zona denominata Input audio in cui puoi importare un file musicale.
Se importerai un tuo file musicale, Stable Audio controllerà il file per verificare il copyright; se verrà rilevata una violazione, l’audio verrà comunque conteggiato ai tuoi crediti mensili. Quindi assicurati di utilizzare musica inedita. I file audio caricati verranno automaticamente ritagliati a 3 minuti.
A questo punto puoi generare il tuo pezzo musicale che terrà conto del file audio e dello stile scelto e/o del tuo prompt.
Test su Stable Audio, Suno e Soundgen
Per un test di creazione audio ho inserito questo prompt “new age year 80 style, Sinth, vibrant, synthpop, Drum, Atmospheric, Nostalgic, Cool, vintage, 145 BPM” su Stable Audio 2.0, Suno e Soundgen.
Questo è il risultato per Stable Audio 2.0, discreto anche se a volte un po’ troppo ripetitivo.
Questo sotto invece il risultato che si ottiene utilizzando lo stesso prompt su Suno.ai (altro popolare generatore musicale); nello specifico, ho richiesto un risultato solo strumentale ed ho utilizzato la nuova versione v3. Il risultato di Suno sembra decisamente migliore.
Infine questo sotto è il risultato che si ottiene utilizzando lo stesso prompt su Soundgen, altro popolare generatore IA musicale che usa un modello IA di Meta; anche il risultato di Soundgen sembra migliore di Stable Audio 2.0, anche se limitato dalla versione gratuita a solo 30 secondi.
Suno a differenza di Soundgen e Stable audio è anche in grado di generare le voci e i testi (opzionale), e questi sotto sono i risultati, sempre stesso prompt di sopra con voci e testi generati automaticamente. Prima con voce femminile e poi con voce maschile in lingua inglese. Il terzo e ultimo brano è il testo usato dal primo brano ma tradotto in italiano e generato per una voce femminile.
Che ne pensi ? Di la tua nei commenti.
Conclusione
Stable Audio 2.0 offre strumenti potenti e flessibili per esplorare nuove possibilità creative anche se forse ancora qualche step indietro alle potenzialità di Suno.ai.
Con Stable Audio 2.0 puoi sperimentare con i prompt testuali, trasformare campioni audio esistenti o semplicemente lasciarti ispirare dalle creazioni generate dall’IA. Come con Stable Diffusion, il popolare generatore di immagini di Stability AI, questa piattaforma offre nuove possibilità per la creatività, consentendo di esplorare nuove dimensioni sonore.
Con le sue funzionalità innovative, l’attenzione ai diritti d’autore e la qualità audio, questo modello si posiziona comunque come una risorsa preziosa per chiunque desideri sperimentare con la generazione musicale IA, aprendo la strada a nuove forme di espressione creativa.