Google Reserch ha presentato Lumière, un sistema di intelligenza artificiale che genera video brevi e altamente realistici; alla base dei video ci sono input testuali. Lumière consente di creare video a partire da descrizioni scritte, oppure di animare immagini statiche o modificarne lo stile.
Come funziona Lumière
Lumière utilizza un’architettura denominata ‘Space-Time U-Net‘. A differenza dei precedenti modelli, genera l’intero video in un’unica fase attraverso più scale spaziali e temporali. Ciò le consente di ottenere una coerenza globale nel tempo, piuttosto che generare singoli fotogrammi chiave che poi devono essere collegati con tecniche di sovra-risoluzione temporale.
“Addestriamo il nostro modello T2V [text-to-video] su un set di dati di 30 milioni di video con descrizioni testuali. I video sono lunghi 80 frames a 16 fotogrammi al secondo (5 secondi totali). Il modello base è addestrato ad una risoluzione di 128 × 128 pixel “, ha spiegato Google.
Grazie a questa architettura, Lumière è in grado di creare brevi video da 5 secondi direttamente in output. Inoltre, non si devono eseguire ulteriori passaggi di miglioramento. Il modello è stato pre-addestrato su enormi quantità di dati per apprendere le dinamiche spazio-temporali dell’immagine in movimento.
Le potenzialità di Lumière
Innanzitutto, è possibile generare video di pochi secondi a partire da descrizioni testuali. Basta fornire indicazioni su ambientazione, oggetti, personaggi e azioni. Lumière è in grado di comprendere il testo e creare immagini animate coerenti, mostrando una buona comprensione dei rapporti spaziali e del moto.
Un altro utilizzo interessante è la capacità di modificare lo “stile” di una singola immagine preesistente, animandola in coerenza con lo stile prescelto. Qui sotto un esempio
Poi la possibilità di modificare il soggetto di un video con una richiesta testuale, sotto ci sono due esempi.
Anche il video editing è supportato: tramite prompt è possibile modificare singoli frame o sezioni di un video, adattandone caratteristiche come colori, illuminazione o velocità.
Un futuro promettente, ma ancora limitato
Questo è solo l’inizio, Lumière mostra ancora limitazioni tecniche. I video generati durano al massimo 5 secondi e la risoluzione è contenuta. Anche gli esempi mostrano lacune nella coerenza narrativa, mentre il movimento risulta meccanico e innaturale.
Tuttavia il progetto rappresenta un passo avanti importante rispetto alle precedenti tecniche di generazione videoframe. Google spera che modelli come Lumière possano evolversi ulteriormente per supportare compiti più complessi, come la regia assistita, la modifica automatica di video e la creazione di contenuti personalizzati su larga scala.
Conclusione
Il progetto Lumière sviluppato da Google apre scenari entusiasmanti ma anche preoccupanti per il futuro delle arti audiovisive e dei mezzi di comunicazione.
Rimangono dubbi sull’impiego di queste tecnologie; in particolare per quanto riguarda il rispetto del diritto d’autore e la tutela della privacy. Sarà compito dei governi e degli enti regolatori garantire un uso etico e trasparente di sistemi che in futuro non molto lontano potrebbero diventare estremamente potenti. In ogni caso Lumière rappresenta una dimostrazione del potenziale dell’intelligenza artificiale per la creatività mediatica.