Da poche ore OpenAI ha rilasciato quello che è forse l’annuncio più clamoroso dopo il lancio di ChatGPT il 30 novembre 2022. OpenAI ha presentato Sora (che significa cielo in Giapponese), un modello IA da testo a video. Sora può generare video della durata di un minuto mantenendo la qualità visiva e l’aderenza alla richiesta dell’utente. Già da tempo giravano in rete sequenze filmate realizzate tramite IA partendo da richieste testuali; per esempio realizzati con Runway Gen-2. Non si erano mai visti però risultati di questa durata (1 minuto) e di questa qualità.
Il modello gen-2 di Runway rilasciato lo scorso giugno produce brevi clip che si avvicinano all’animazione di un grande studio in termini di qualità. Ma questi video durano solo pochi secondi. Il risultato dei video prodotti da Sora sono invece da wow ! Puoi vederne alcuni in questa pagina e molti altri sulla pagina ufficiale dell’annuncio.
Sora
Il modello denominato Sora è in grado di generare video di alta fedeltà della durata massima di un minuto.
Per progettare Sora, il team ha adattato la tecnologia alla base di DALL-E 3, l’ultima versione del modello text-to-image di punta di OpenAI. Come la maggior parte dei modelli da testo a immagine, DALL-E 3 utilizza il cosiddetto modello di diffusione. Questi sono addestrati a trasformare dei pixel casuali in un’immagine.
Sora adotta questo approccio e lo applica ai video piuttosto che alle immagini fisse. Ma a differenza di DALL-E o della maggior parte degli altri modelli video generativi, Sora combina il suo modello di diffusione con un tipo di rete neurale chiamata trasformatore.
I trasformatori sono ottimi nell’elaborare lunghe sequenze di dati, come le parole. Ma i video non sono fatti di parole quindi il team ha dovuto trovare un modo per tagliare i video in pezzi che potessero essere trattati come se lo fossero.
L’approccio che hanno adottato è stato quello di suddividere i video nello spazio e nel tempo. “È come se avessi una pila di tutti i fotogrammi video e ne tagliassi dei piccoli cubetti“, afferma Brooks di OpenAI.
Il trasformatore all’interno di Sora può quindi elaborare questi blocchi di dati video più o meno allo stesso modo in cui il trasformatore all’interno di un modello linguistico di grandi dimensioni elabora le parole in un blocco di testo.
OpenAI afferma che questo ha permesso loro di addestrare Sora su molti più tipi di video rispetto ad altri modelli di testo in video, variati in termini di risoluzione, durata, proporzioni e orientamento.
Sora ha anche capacità di simulazione notevoli. Per esempio, la generazione di movimenti di telecamera dinamici, la coerenza a lungo termine e la permanenza degli oggetti. Oppure la capacità di simulare azioni che influenzano lo stato del mondo in modi semplici.
Sora: dimostrazioni video
Ecco alcuni esempi di video realizzati con Sora. Il primo esempio qui sotto è l’unico mostrato da OpenAI della durata di 1 minuto; presenta una donna che passeggia per Tokyo.
Prompt utilizzato: una donna elegante cammina lungo una strada di Tokyo piena di neon caldi e luminosi e di segnaletica cittadina animata. Indossa una giacca di pelle nera, un lungo vestito rosso e stivali neri e porta una borsa nera. Indossa occhiali da sole e rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni passeggiano.
Altri esempi più brevi
Prompt utilizzato: vista dal drone delle onde che si infrangono contro le aspre scogliere lungo la spiaggia di Garay Point di Big Sur. Le acque blu che si infrangono creano onde dalla punta bianca, mentre la luce dorata del sole al tramonto illumina la costa rocciosa. In lontananza si trova una piccola isola con un faro e verdi arbusti ricoprono il bordo della scogliera. Il ripido dislivello dalla strada fino alla spiaggia è un’impresa drammatica, con i bordi della scogliera che sporgono sul mare. Questa è una vista che cattura la bellezza cruda della costa e il paesaggio aspro della Pacific Coast Highway.
Prompt utilizzato: diversi giganteschi mammut lanosi si avvicinano camminando attraverso un prato innevato, la loro lunga pelliccia lanosa si muove leggermente nel vento mentre camminano, alberi coperti di neve e spettacolari montagne innevate in lontananza, la luce di metà pomeriggio con nuvole sottili e un sole alto nel cielo, la distanza crea una luce calda, la visuale dal basso è straordinaria e cattura il grande mammifero peloso con una fotografia e una profondità di campo meravigliose.
Prompt utilizzato: il viadotto Glenfinnan è uno storico ponte ferroviario in Scozia, Regno Unito, che attraversa la linea dell’altopiano occidentale tra le città di Mallaig e Fort William. È uno spettacolo mozzafiato mentre un treno a vapore lascia il ponte, viaggiando sul viadotto coperto ad arco. Il paesaggio è costellato di vegetazione lussureggiante e montagne rocciose, creando uno sfondo pittoresco per il viaggio in treno. Il cielo è azzurro e il sole splende, rendendo la giornata meravigliosa per esplorare questo luogo maestoso.
Disponibilità
La corsa all’oro dell’IA video è iniziata. Pochi mesi fa Runway aveva sorpreso tutti con il suo aggiornamento Gen-2. Tre settimane fa, Google ha lanciato il suo modello di generazione di intelligenza artificiale video Lumiere, mentre la settimana scorsa Stability AI ha lanciato SVD 1.1, un modello di diffusione per video AI più coerenti. Ed ora Sora…
Le capacità espressive di Sora offrono a chiunque il potenziale di diventare creatori di video. il video generativo è passato da zero a Sora in soli 18 mesi.
Ma ci sono anche reali potenziali possibilità di abuso. OpenAI è consapevole dei rischi che derivano da un modello video generativo.
Per questo attualmente, Sora è disponibile solo per i membri del Red Team di OpenAI per verificare le aree importanti per potenziali problemi o rischi (per esempio in aree come disinformazione, contenuti che incitano all’odio e pregiudizi) e ad un limitato numero di artisti, designer e registi in modo che l’azienda possa raccogliere input su come migliorare il modello.
Prima di rilasciare Sora ad uso pubblico, OpenAI ha intenzione di coinvolgere politici, educatori e artisti di tutto il mondo per comprendere le loro preoccupazioni e identificare casi d’uso positivi per questa nuova tecnologia.