Google presenta Gemini 3.5 Flash: il modello più veloce e performante con contesto a 1 milione di token

Da tempo, nella nomenclatura di Google, Flash ha significato una cosa precisa: veloce, economico, con qualche compromesso sulle prestazioni rispetto alla variante Pro. Era la scelta giusta per chi doveva gestire volumi alti a basso costo, non per chi cercava il massimo della qualità e precisione. Gemini 3.5 Flash, presentato ieri 19 maggio 2026 durante il keynote developer di Google I/O 2026 a Mountain View, rompe questa logica in modo piuttosto netto (almeno per il momento).

La nuova versione è il primo della nuova famiglia Gemini 3.5 che Google riassume con la formula “frontier intelligence with action”: non solo capacità di ragionamento, ma anche autonomia su task lunghi e complessi. Supera Gemini 3.1 Pro su tutti i benchmark principali per coding e agenti. Gira 4 volte più velocemente rispetto agli altri modelli di frontiera comparabili come Claude Opus 4.7. Costa meno della metà dei competitor diretti ma, rispetto al precedente Gemini Flash 3, il prezzo API aumenta.

Il modello è disponibile da oggi come default nella app Gemini e in AI Mode in Google Search, per i developer tramite Gemini API in Google AI Studio e Android Studio, per le aziende nel Gemini Enterprise Agent Platform e come motore principale di Antigravity 2.0. Gemini 3.5 Pro è già in uso interno presso Google e arriverà in accesso pubblico il prossimo giugno.

Il modello economico che supera il flagship

Il dato più interessante del lancio non è la velocità o il prezzo: è la gerarchia dei benchmark. Gemini 3.5 Flash supera Gemini 3.1 Pro su tutti e quattro i parametri principali comunicati da Google. Ecco il confronto diretto:

Benchmark	Gemini 3.5 Flash	Gemini 3.1 Pro
Terminal-Bench 2.1 (coding)	76,2%	70,3%
GDPval-AA (agentic, Elo)	1.656	1.314
MCP Atlas (tool-use)	83,6%	78,2%
CharXiv Reasoning (multimodale)	84,2%	83,3%

Il distacco è abbastanza ampio da segnalare un cambio qualitativo, non solo quantitativo. Gemini 3.1 Pro al lancio guidava l’indice Artificial Analysis Intelligence Index con un punteggio di 77,1% su ARC-AGI-2. Ora a tre mesi di distanza, la nuova versione lo supera su coding e agenti.

Il confronto con i competitor diretti è più sfumato. Su Terminal-Bench 2.1, Gemini 3.5 Flash raggiunge 76,2% contro il 78,2% di GPT-5.5 e il 66,1% di Claude Opus 4.7: meglio di Anthropic, leggermente sotto OpenAI. Invece su MCP Atlas (affidabilità nel chiamare tool), i numeri si invertono: 83,6% contro 81,2% di GPT-5.5 e 75,2% di Claude Opus 4.7, con Gemini 3.5 Flash in testa. Su ARC-AGI-2, ovvero ragionamento astratto, il modello scende a 72,1% contro l’84,6% di GPT-5.5: è il benchmark dove il vantaggio competitivo è meno forte.

Velocità, finestra di contesto e prezzi

Gemini 3.5 Flash supera 280 token al secondo in output, con una velocità che Google dichiara 4 volte superiore ai modelli di frontiera comparabili e fino a 12 volte più veloce all’interno di Antigravity 2.0 in configurazione multi-agente.

Perché la velocità conta così tanto? In un sistema dove decine di agenti lavorano in parallelo, la latenza del modello si moltiplica per il numero di agenti attivi. Jeff Dean, Chief Scientist di Google, ha descritto 3.5 Flash come il motore ideale per “deploy sub-agents that collaborate, run high-frequency iterative loops, and solve real-world problems at scale.“

La finestra di contesto è 1 milione di token in input con un output massimo di 64.000 token. Gli input accettati coprono testo, immagini, video, audio. Sul benchmark MRCR v2 per il recupero di informazioni su contesto lungo al milione di token, Gemini 3.5 Flash registra il punteggio più alto nella tabella pubblicata da Google.

Sul fronte prezzi, il listino ufficiale è $1,50 per milione di token in input e $9,00 per milione di token in output. Il prezzo è inferiore a GPT 5.5, Claude Opus 4.7 e Gemini 3.1 Pro, ma in deciso rialzo rispetto a Gemini 3.0 Flash. L’API ID stabile è gemini-3.5-flash.

Modello	Input (per 1M token)	Output (per 1M token)
DeepSeek-V4 Flash	$0.07	$0.42
MiniMax M2.5	$0.15	$1.20
MiniMax M2.5-Lightning	$0.30	$2.40
Qwen3.6 Plus	$0.32	$1.95
DeepSeek-V4 Pro	$0.435	$0.87
Kimi K2.6	$0.60	$2.80
GLM-5.1 (Z.ai)	$0.95	$3.15
Grok 4.3 (xAI)	$1.25	$2.50
Gemini 3.5 Flash	$1.50	$9.00
Gemini 3.1 Pro (Google)	$2.00	$12.00
GPT-5.4	$2.50	$15.00
Claude Sonnet 4.6 (Anthropic)	$3.00	$15.00
Claude Opus 4.7 (Anthropic)	$5.00	$25.00
GPT-5.4 Pro	$30.00	$180.00
GPT-5.5	$5.00	$30.00
GPT-5.5 Pro	$30.00	$180.00

Per i lavori su volumi alti, il confronto economico corretto non è con Gemini 3.1 Pro ma con i competitor di fascia equivalente come GPT-5.5 o Claude Opus 4.7, dove il vantaggio di costo risulta più evidente.

Architettura e thinking levels

Gemini 3.5 Flash è stato sviluppato da un team che include il CTO Koray Kavukcuoglu, il Chief Scientist Jeff Dean, il VP Oriol Vinyals e il VP Noam Shazeer: il nucleo del team Gemini di Google DeepMind.

Il nuovo modello di Google si basa sull’architettura di ragionamento di Gemini 3 Flash, esteso con thinking levels regolabili: un meccanismo che permette di bilanciare qualità, costo e latenza a seconda del task.

Tutti i modelli Flash sono una distillazione del Pro, non un modello indipendente. Si allena un modello più piccolo a imitare il comportamento del modello grande. La conseguenza diretta è la velocità: un modello distillato ha meno parametri, risponde più velocemente, con un costo computazionale inferiore. La qualità si recupera perché il training è guidato dal modello teacher (il Pro), non da zero.

Il modello è stato sviluppato sotto il Frontier Safety Framework di Google, con salvaguardie rafforzate su minacce informatiche e CBRN (chimico, biologico, radiologico, nucleare). La novità rispetto alle versioni precedenti è l’introduzione di strumenti di interpretabilità che analizzano il ragionamento interno del modello prima che una risposta venga restituita. L’obiettivo dichiarato è duplice: ridurre i contenuti dannosi e diminuire i casi di false refusals, ovvero i rifiuti ingiustificati su prompt innocui. Per approfondimenti puoi leggere la model card di Gemini 3.5 Flash.

Gemini Spark e nuovo piano Google AI Ultra

Parallelo al lancio del modello, Google ha annunciato Gemini Spark: un agente personale 24/7 costruito su Gemini 3.5 Flash, pensato per operare in background su Google Workspace, delegare task complessi, monitorare sistemi tramite integrazioni come ServiceNow e supportare team di vendita e IT. Gemini Spark è in rollout per i tester di fiducia da oggi, con una beta più ampia per i sottoscrittori del piano AI Ultra (ma solo negli USA) prevista la settimana prossima.

Il piano Google AI Ultra, presentato contestualmente, ha un prezzo di 99 euro al mese e include un livello di utilizzo 5 volte superiore rispetto al piano AI Pro, con accesso prioritario a Gemini 3.5 Flash. Esiste anche una variante da $200 al mese con limiti ulteriormente estesi.

Secondo i dati di Arena (Chatbot Arena), Gemini 3.5 Flash ha già raggiunto il nono posto nella classifica generale del Text Arena con un Elo di 1.507, guadagnando +70 punti rispetto a Gemini 3 Flash e posizionandosi come il modello con il punteggio più alto nella sua fascia di prezzo.

Il vero punto di forza è la combinazione di velocità e qualità su task strutturati: coding multi-step, orchestrazione di agenti, analisi di documenti lunghi, tool calling affidabile. Per chi costruisce su questi pattern, Gemini 3.5 Flash è oggi il riferimento più equilibrato disponibile nella fascia economica. Con Gemini 3.5 Pro in arrivo a giugno 2026, il quadro si completerà presto.

Ultimi Articoli

Gemini 3.5 Flash: il modello veloce di Google che batte il flagship Gemini 3.1 Pro

Il modello economico che supera il flagship

Velocità, finestra di contesto e prezzi

Architettura e thinking levels

Gemini Spark e nuovo piano Google AI Ultra