Finora sono stati creati diversi strumenti per la generazione automatica di video partendo da prompt testuali, immagini o altri video. Tra i tanti ricordiamo Sora, Kling, Dream Machine, Runway. Tutti i video autogenerati non hanno un suono, nessuna voce o effetto sonoro. DeepMind, il laboratorio di intelligenza artificiale di Google, ha sviluppato una nuova tecnologia chiamata V2A (video-to-audio) che porta l’audio ai video.
V2A è una soluzione in grado di generare tracce audio sincronizzate con il video, inclusi effetti sonori e dialoghi, sia per video generati dall’IA che per filmati tradizionali, aprendo altre nuove possibilità creative per l’industria cinematografica e dei media.
Funzionamento di V2A
La tecnologia V2A di DeepMind si basa su un approccio di diffusione per generare audio realistico e coinvolgente sincronizzato con le informazioni video. Il sistema inizia codificando l’input video in una rappresentazione compressa, che viene poi elaborata iterativamente dal modello di diffusione per raffinare l’audio a partire da rumore casuale.
Questo processo è guidato dall’input visivo e da prompt testuali in linguaggio naturale, consentendo di generare audio sincronizzato e realistico che si allinea strettamente con le indicazioni fornite.
Per migliorare ulteriormente la qualità dell’output audio e aggiungere la capacità di guidare il modello verso la generazione di suoni specifici, DeepMind ha integrato nel processo di training annotazioni generate dall’IA con descrizioni dettagliate dei suoni e trascrizioni dei dialoghi parlati.
Addestrando il sistema su video, audio e queste annotazioni aggiuntive, la tecnologia V2A impara ad associare eventi audio specifici a varie scene visive, rispondendo alle informazioni fornite nelle annotazioni o nelle trascrizioni.
Vantaggi e caratteristiche distintive
Ciò che distingue la ricerca di DeepMind dalle soluzioni video-to-audio esistenti è la capacità di V2A di comprendere i pixel grezzi, rendendo opzionale l’aggiunta di un prompt testuale. Inoltre, il sistema non richiede un allineamento manuale dell’audio generato con il video, evitando il noioso processo di regolazione di diversi elementi come suoni, immagini e tempistiche.
Per esempio nel video qui sotto, l’audio riprodotto da una chitarra elettrica (generato da IA) è stato aggiunto automaticamente usando V2A e senza usare un prompt testuale. Osserva come ad ogni pizzico sulle corde V2A abbia applicato uno suono. Sorprendente !
Un altro vantaggio significativo di V2A è la possibilità di generare un numero illimitato di colonne sonore per qualsiasi input video. Si possono definire “prompt positivi” per guidare l’output generato verso i suoni desiderati o “prompt negativi” per allontanarlo da quelli indesiderati.
Questa flessibilità offre un maggiore controllo sull’output audio, consentendo di sperimentare rapidamente diverse opzioni e scegliere quella che meglio si adatta alle esigenze creative.
Applicazioni e potenziale impatto
La tecnologia V2A di DeepMind ha il potenziale per trasformare il processo di creazione delle colonne sonore nell’industria cinematografica e dei media. Può essere abbinata a modelli di generazione video come Veo di Google per creare scene con una partitura drammatica, effetti sonori realistici o dialoghi che corrispondono ai personaggi e al tono del video.
Inoltre, V2A può generare colonne sonore per una vasta gamma di filmati tradizionali, incluso materiale d’archivio, film muti e altro.
Questa soluzione potrebbe semplificare e accelerare notevolmente il workflow di post-produzione audio, riducendo i tempi e i costi associati alla creazione manuale di colonne sonore sincronizzate. Inoltre, V2A potrebbe consentire a un maggior numero di creatori di contenuti, anche con budget limitati, di aggiungere tracce audio di alta qualità ai loro video, democratizzando l’accesso a capacità di produzione audio avanzate.
V2A : sviluppi futuri
Nonostante i progressi, ci sono ancora alcune limitazioni che DeepMind sta cercando di affrontare con ulteriori ricerche. Per garantire uno sviluppo e una distribuzione responsabili di V2A, DeepMind si sta impegnando a raccogliere prospettive e approfondimenti diversi da importanti creatori e cineasti, utilizzando questo feedback per informare la ricerca e lo sviluppo in corso. Inoltre, il toolkit SynthID è stato incorporato nella ricerca per contrassegnare tutti i contenuti generati dall’IA, salvaguardando contro potenziali usi impropri di questa tecnologia.
V2A : conclusioni
Combinando pixel video e prompt testuali, questo sistema IA è in grado di produrre colonne sonore, effetti sonori realistici e dialoghi che si allineano perfettamente con l’azione sullo schermo.
Con la capacità di generare un numero illimitato di tracce audio per qualsiasi input video e un maggiore controllo sull’output attraverso prompt testuali (positivi e/o negativi), V2A offre una flessibilità senza precedenti nel processo creativo.
Questa tecnologia ha il potenziale per semplificare i flussi di lavoro di post-produzione audio, ridurre i costi e democratizzare l’accesso a capacità di produzione audio avanzate. Con ulteriori perfezionamenti, la tecnologia V2A di DeepMind diventarà uno strumento potente per la creazione di contenuti audiovisivi.