L’anno scorso Nano Banana ha portato le capacità di ragionamento di Gemini dentro la generazione e l’editing di immagini: restauro di vecchie fotografie, design partiti da uno schizzo, visualizzazioni che prima richiedevano un software dedicato. Da quel momento Google DeepMind si è concentrata a costruire un unico sistema capace di ragionare su qualsiasi input e generare qualsiasi output.
Presentato il 19 maggio 2026 durante il keynote di Google I/O 2026, Gemini Omni è il punto d’incontro tra le capacità di ragionamento di Gemini e la generazione creativa: testo, immagini, audio e video possono essere combinati liberamente come input per produrre video ad alta qualità. L’output può essere modificato attraverso una conversazione, senza ricominciare da capo a ogni iterazione.
Il primo modello della famiglia è Gemini Omni Flash, disponibile da oggi nell’app Gemini (sostituisce Veo 3.1), in Google Flow, su YouTube Shorts e YouTube Create. Per ora l’output è solo un file video ad alta risoluzione con audio sincronizzato. Per gli sviluppatori, l’accesso API arriverà nelle prossime settimane. Nei prossimi mesi arriverà il supporto a formati di output aggiuntivi, tra cui immagini e audio. Un Gemini Omni Pro è stato annunciato ma senza data ufficiale.
Omni non si limita a fondere gli input in un output, ma ragiona su di essi, costruisce una rappresentazione interna del mondo descritto e produce un risultato coerente con quella rappresentazione.
Modifica ciò che non ti convince senza ricominciare da zero
Il punto di distinzione principale di Gemini Omni Flash rispetto agli altri generatori video AI è la continuità dell’editing. Si genera un video, si chiede di modificare la luce nella scena, di sostituire il personaggio di sfondo, di stabilizzare una ripresa traballante, e il modello applica le modifiche mantenendo il contesto di tutto ciò che è stato fatto prima. I personaggi restano consistenti tra una scena e l’altra. Gli ambienti non cambiano identità a ogni iterazione.
In pratica, si parla al modello come si parlerebbe a un editor umano: “la scena è troppo scura, schiarisci“, “quel personaggio non corrisponde alla descrizione, sostituiscilo con qualcuno più giovane“, “la transizione tra il secondo e il terzo segmento è brusca, ammorbidiscila“. Gemini Omni Flash tiene traccia di tutte le istruzioni precedenti e le applica incrementalmente, senza perdere coerenza.
Con Veo 3.1, come con Sora di OpenAI o Seedance di ByteDance, ogni nuova generazione era sostanzialmente indipendente dalla precedente. Il risultato era una serie di tentativi, rigetti e ri-tentativi che consumavano tempo e non portavano a nulla di cumulativo. L’editing conversazionale di Omni trasforma il processo in qualcosa di più simile a un dialogo con il materiale, dove ogni istruzione si aggiunge alla precedente invece di resettare tutto.
Fisica, anatomia e world knowledge: il fondamento sotto al video
Gemini Omni Flash è addestrato per comprendere e rispettare vincoli del mondo fisico: gravità, moto, energia cinetica, comportamento dei fluidi, illuminazione, anatomia. Quando genera un oggetto che cade, simula la traiettoria corretta. Se anima un volto, rispetta le proporzioni anatomiche tra le espressioni. Quando genera acqua in movimento, la fisica del fluido segue regole coerenti invece di produrre artefatti visivi.
Questo si traduce in output più credibili su video scientifici, un segmento dove i generatori video precedenti producevano risultati spesso inaccettabili. Un video che spiega come funziona la pressione atmosferica, o come si muovono le placche tettoniche, o come si diffonde un virus in una cellula richiede che la fisica e l’anatomia siano corrette.
Gemini Omni attinge anche alla knowledge base di Gemini su storia, scienza e cultura per creare contenuti informativi e storytelling visivo. Se si chiede una ricostruzione della battaglia di Canne (216 a.C.) o una visualizzazione dell’interno di una stella di neutroni, il modello può costruire il contesto visivo partendo dalla conoscenza enciclopedica del modello base, non solo da input visivi forniti dall’utente.
Gemini Omni Flash: Nano Banana, Veo e Genie
L’architettura di Gemini Omni Flash è, secondo quanto dichiarato da Google, transformer-based con supporto nativo per tutti e quattro i tipi di input (testo, immagini, audio, video). Non è un ensemble di modelli separati collegati via pipeline: i diversi moduli di percezione operano in modo integrato nello stesso spazio.
Sotto al cofano ci sono almeno tre componenti di Google DeepMind che contribuiscono in modo distinto. Veo porta le capacità di generazione video ad alta fedeltà visiva già dimostrate con Veo 3.1. Genie, il progetto di world modeling di DeepMind, contribuisce alla comprensione e simulazione delle dinamiche fisiche. Nano Banana, orientato alla comprensione video, contribuisce alla stabilità temporale e alla consistency tra frame consecutivi. Un approccio integrato, che se ben realizzato, produce continuità visiva tra i vari fotogrammi.
Gemini Omni Flash ha un limite di 10 secondi per clip: è stato esplicitamente descritto da Google come una scelta di deployment, non un limite architetturale. Generare 10 secondi di video coerente con editing conversazionale è un task computazionalmente pesante, e il limite probabilmente riflette una scelta di bilanciamento tra qualità e costi di inference al momento del lancio.
Avatar, SynthID e la questione dell’identità digitale
Gemini Omni Flash include una funzione Avatar: è possibile creare una versione digitale di sé stessi, con voce e aspetto fisico replicati, da usare per generare video automaticamente. L’avatar è strettamente personale, ovvero solo il proprietario può usarlo per generazioni. Google sottolinea che la funzione è opzionale e separata dalle altre capacità del modello.
Per gestire il rischio di deepfake e contenuti sintetici incontrollati, ogni video generato con Gemini Omni Flash porta un watermark digitale invisibile tramite SynthID, la tecnologia di Google DeepMind per l’autenticazione di contenuti AI.
Contestualmente a Google I/O 2026, Google ha annunciato l’espansione del programma SynthID: OpenAI, Nvidia, ElevenLabs e Kakao hanno aderito al sistema, adottandolo come standard cross-industry per identificare contenuti generati da AI su Chrome e Google Search.
Gemini Omni Flash non è Veo con più funzioni
Gemini Omni Flash non è un aggiornamento di Veo: è un modello con una logica di prodotto diversa. Veo era ottimizzato per generare video di qualità cinematografica da prompt testuali, con focus sulla fedeltà visiva. Omni è ottimizzato per flussi di lavoro creativi iterativi, dove il valore sta nell’editing conversazionale, nella coerenza tra più sessioni e nella capacità di fondere tipi di input radicalmente diversi in un output unico.
Per chi crea contenuti su YouTube, per i team pubblicitari che devono produrre varianti di un video, per chi fa didattica visiva e ha bisogno di animazioni fisicamente accurate, il modello offre qualcosa che i tool precedenti non davano: la possibilità di lavorare su un video come si lavora su un documento, con revisioni incrementali invece di generazioni da zero.
Il caso d’uso più convincente, per ora, è quello mostrato da Google durante la demo: un flusso creativo dove si parte da materiali eterogenei (una foto, una colonna sonora, un testo descrittivo) e si arriva a un video coerente attraverso un dialogo con il modello.













