Google ha introdotto Agentic Vision in Gemini 3 Flash, una funzionalità che cambia il modo in cui i modelli di intelligenza artificiale analizzano le immagini. Invece di limitarsi a osservare staticamente un’immagine, il sistema ora la interroga attivamente, genera codice Python per manipolarla e trae conclusioni basate su prove visive verificabili.


Questa modalità operativa si distacca nettamente dall’approccio tradizionale, in cui il modello esaminava l’intera scena in un singolo colpo d’occhio e, qualora non riuscisse a cogliere dettagli minuti come numeri di serie su componenti elettronici o segnali stradali lontani, era costretto a formulare ipotesi.
Agentic Vision trasforma la comprensione delle immagini quasi in un processo investigativo. Il modello non si limita a descrivere ciò che vede, ma esegue operazioni di ritaglio, rotazione, annotazione e calcolo matematico direttamente sull’immagine. Questa metodologia garantisce un miglioramento costante della qualità compreso tra il 5% e il 10% su gran parte dei test visivi. La tecnologia è già accessibile tramite l’API Gemini in Google AI Studio e Vertex AI, mentre per chi utilizza l’app Gemini è possibile attivarla selezionando la modalità Thinking dal menu dei modelli.
Tuttavia, non è una novità assoluta: OpenAI aveva fatto qualcosa di simile con i modelli o3 e o4-mini.
Il ciclo “Think, Act, Observe”: l’approccio metodico di Agentic Vision
Il funzionamento di Agentic Vision si articola in tre fasi distinte, definite da Google come un ciclo Think-Act-Observe. Nella prima fase, denominata Think, il modello esamina la richiesta dell’utente e l’immagine iniziale, formulando un piano d’azione suddiviso in più passaggi. Questa pianificazione strategica consente a Gemini 3 Flash di stabilire quali operazioni siano necessarie per rispondere in modo accurato, evitando approcci generici o superficiali.
Successivamente, durante la fase Act, il sistema genera ed esegue codice Python per manipolare attivamente l’immagine. Può ritagliare porzioni specifiche per ingrandire dettagli altrimenti illeggibili, ruotare l’orientamento per migliorare la leggibilità, aggiungere annotazioni visive tramite riquadri o etichette numeriche, oppure eseguire calcoli matematici su dati estratti dall’immagine.
Infine, nella fase Observe, l’immagine trasformata viene aggiunta al contesto del modello. Questo passaggio permette a Gemini 3 Flash di riesaminare i nuovi dati con maggiore precisione prima di generare la risposta definitiva. L’intero ciclo può ripetersi più volte, creando un processo iterativo che raffina progressivamente la comprensione visiva. Questo meccanismo riduce il rischio di allucinazioni tipiche dei modelli linguistici durante operazioni su dati visivi.
Tre capacità chiave: zoom, annotazione e calcolo visivo
Agentic Vision sblocca tre funzionalità principali che ampliano notevolmente le prestazioni analitiche di Gemini 3 Flash. La prima riguarda lo zoom e l’ispezione automatica, attraverso cui il modello decide autonomamente quando ingrandire sezioni specifiche dell’immagine. Se un dettaglio risulta troppo piccolo per essere riconosciuto nella visione d’insieme, il sistema genera codice per ritagliare la porzione interessata e analizzarla separatamente.
La seconda capacità concerne l’annotazione visiva diretta. Anziché limitarsi a descrivere elementi presenti nell’immagine, Gemini 3 Flash può disegnare riquadri, frecce o etichette numeriche direttamente sulla tela visiva. Un esempio pratico riguarda il conteggio delle dita di una mano: invece di enumerare verbalmente, il modello traccia riquadri attorno a ciascun dito identificato e applica etichette numeriche. Questa tecnica funge da lavagna visiva, garantendo che la risposta finale sia ancorata a una comprensione pixel per pixel dell’immagine.
La terza funzionalità riguarda la matematica visiva e la rappresentazione grafica. Il modello è in grado di analizzare tabelle ad alta densità informativa, estrarre dati numerici e generare grafici tramite esecuzione di codice Python. Questo processo elimina errori di calcolo manuali e offre rappresentazioni visive immediate.
Gemini 3 Flash Agentic Vision alla prova


Ho voluto mettere alla prova con un semplice test pratico tre dei modelli di intelligenza artificiale più avanzati attualmente disponibili: Gemini 3 Flash, Claude Sonnet 4.5 e GPT 5.2. L’esperimento consisteva nell’analizzare una fotografia contenente due libri posizionati al contrario, con una particolarità aggiuntiva che rendeva il compito più difficile: il libro posizionato sotto presentava il titolo solo parzialmente visibile, coperto in parte dall’altro volume.
Il modello di Anthropic è riuscito a leggere correttamente i titoli di entrambi i libri, dimostrando una buona capacità di interpretazione visiva anche in condizioni non ottimali. La combinazione tra orientamento invertito e parziale occlusione del testo non ha rappresentato un ostacolo insormontabile per Claude, che ha elaborato l’immagine con precisione e fornito una risposta accurata.


GPT 5.2 ha sbagliato a leggere il titolo di uno dei due libri (quello sopra).


Infine Gemini 3 Flash; con il nuovo Agentic Vision non sbaglia e legge correttamente il titolo dei due libri. È anche l’unico dei tre che ha riportato il titolo italiano di “Il Risveglio”.


Disponibilità e prospettive future della tecnologia
Attualmente, Agentic Vision è accessibile in modalità preview attraverso l’API Gemini integrata in Google AI Studio e Vertex AI. Gli sviluppatori possono sperimentare la funzionalità attivando l’opzione Code Execution nella sezione Tools del playground di AI Studio. Per chi utilizza l’applicazione Gemini, il rilascio graduale è già iniziato e la funzionalità si attiva selezionando il modello Thinking dal menu a tendina. Questa modalità offre risposte più articolate e precise quando vengono fornite immagini.
Google ha delineato nel blog ufficiale diverse direttrici per l’evoluzione futura di Agentic Vision; è prevista l’integrazione di strumenti aggiuntivi. Ci sarà la possibilità di utilizzare la ricerca web e la ricerca inversa per immagini, permettendo a Gemini 3 Flash di contestualizzare ulteriormente le proprie analisi visive. Infine, Agentic Vision sarà esteso ad altri modelli della famiglia Gemini, non limitandosi esclusivamente a Flash. Questo consentirà di portare le medesime capacità investigative su modelli più potenti come Gemini 3 Pro ampliando il ventaglio di applicazioni possibili.
Un nuovo paradigma per l’analisi visiva basata su IA
L’introduzione di Agentic Vision in Gemini 3 Flash trasforma l’analisi visiva da atto passivo a processo attivo, dove il modello genera codice per manipolare e interrogare l’immagine, riduce drasticamente i margini di errore e le allucinazioni.
Guardando al futuro, l’espansione di Agentic Vision ad altri modelli della famiglia Gemini e l’integrazione di strumenti come la ricerca web potrebbero ampliare ulteriormente le potenzialità applicative. Resta da vedere come questa tecnologia si confronterà con soluzioni concorrenti, ma l’approccio basato su esecuzione di codice apre scenari interessanti per chi cerca precisione analitica in ambito visivo.










