Ieri Google DeepMind ha rilasciato Gemma 4, la nuova famiglia di modelli open-weight costruita a partire dalla stessa ricerca e tecnologia alla base di Gemini 3. Con questa versione, Google ridisegna il posizionamento dei propri modelli aperti sia sul fronte tecnico che su quello legale, con conseguenze dirette per sviluppatori, ricercatori e aziende.
La famiglia si compone di quattro varianti pensate per scenari d’uso molto diversi tra loro. Per i dispositivi edge (smartphone, Raspberry Pi, hardware IoT) ci sono i modelli Effective 2B (E2B) ed Effective 4B (E4B), progettati per girare offline con latenza minima. Per computer e server, Google propone invece il 26B Mixture of Experts (MoE) e il 31B Dense.
Il denominatore comune è un concetto chiamato intelligence-per-parameter, ovvero l’idea che la qualità dell’output non dipenda solo dal numero lordo di parametri, ma dall’efficienza con cui vengono utilizzati.
Una licenza che cambia tutto (davvero)
Il cambiamento più rilevante di Gemma 4 non è solo tecnico ma legale. Le versioni precedenti della famiglia Gemma erano distribuite con una licenza proprietaria Google, piena di clausole interpretabili, restrizioni d’uso e la possibilità di modificarne i termini unilateralmente.
Il risultato pratico era che molti team aziendali, dopo una revisione legale, preferivano optare per Mistral o i modelli open source Qwen di Alibaba (che viaggiano già sotto Apache 2.0) pur sacrificando qualche punto di performance. Con Gemma 4, Google abbandona quella strategia e adotta la stessa licenza open source usata dal resto dell’ecosistema open-weight.
La nuova licenza Apache 2.0 significa nessuna clausola personalizzata, nessuna restrizione sulla ridistribuzione o sul deployment commerciale, nessun bisogno di approvazione preventiva. Per le organizzazioni che gestiscono infrastrutture on-premise o cloud sovrano, questo si traduce in piena autonomia su dati, modelli e deploy.
Vale la pena notarlo anche in chiave di mercato: mentre alcuni laboratori cinesi stanno iniziando a chiudere i loro modelli più capaci, Google si muove nella direzione opposta. Se stai valutando modelli open per uso aziendale, la licenza non è un dettaglio burocratico, è spesso il primo filtro di compliance.
Architettura Gemma 4: cosa c’è sotto il cofano
Dal punto di vista tecnico, Gemma 4 introduce alcune scelte architetturali che vale la pena capire, perché influenzano direttamente le prestazioni reali.
Il modello 26B MoE adotta una struttura a 128 esperti piccoli, dei quali ne vengono attivati 8 per ogni token elaborato, più uno sempre attivo condiviso. Il risultato è un modello che ragiona come un 26B ma consuma risorse computazionali paragonabili a un modello da 4B durante l’inferenza. Meno GPU, latenza ridotta, costi di serving più bassi: per chi gestisce pipeline di produzione con grandi volumi di richieste simultanee, non è un dettaglio trascurabile.
I modelli edge E2B ed E4B usano invece una tecnica chiamata Per-Layer Embeddings (PLE), ovvero ogni layer del decoder porta con sé una piccola tabella di embedding. Il modello E2B risulta da 5,1 miliardi di parametri totali su disco, ma durante l’inferenza ne attiva solo 2,3 miliardi effettivi, con un footprint in RAM contenuto.
Sviluppati in collaborazione con il team Google Pixel, Qualcomm e MediaTek, questi modelli supportano anche l’input audio nativo, non solo testo e immagini. Tutte e quattro le varianti gestiscono video e immagini con risoluzioni variabili, eccellendo in task come l’OCR e la comprensione di grafici.
Le finestre di contesto arrivano a 128K token per i modelli edge e fino a 256K token per quelli da workstation. Il supporto nativo per il function calling strutturato, l’output JSON e le istruzioni di sistema rende l’intera famiglia adatta allo sviluppo di agenti autonomi senza richiedere fine-tuning specializzato.
Dove e come girare questi modelli
La disponibilità è immediata attraverso i canali più diffusi: i pesi sono scaricabili da Hugging Face, Kaggle e Ollama. Chi vuole sperimentare senza installare nulla può accedere ai modelli 31B e 26B MoE direttamente in Google AI Studio, mentre E4B ed E2B sono già disponibili sull’app Android Google AI Edge Gallery per chi le vuole testare su smartphone o tablet.
Il supporto al day-one copre un’ampia lista di framework, tra cui Transformers, vLLM, llama.cpp, MLX, LM Studio, Unsloth, SGLang e Keras. Se vuoi iniziare in modo rapido senza troppa configurazione, Ollama rimane probabilmente l’opzione più comoda per chi lavora su una macchina locale.
Per il fine-tuning, Google Colab e Vertex AI sono le scelte supportate ufficialmente. Anche una GPU consumer della serie RTX è sufficiente per lavorare con le versioni quantizzate, il che abbassa notevolmente la soglia d’ingresso rispetto ai modelli proprietari.
Sul fronte cloud, Google Cloud offre deploy serverless via Cloud Run con supporto NVIDIA RTX Pro 6000, con scaling a zero quando il modello non è in uso, utile per ridurre i costi nei workflow non continui.
Per gli sviluppatori Android, il modello E4B è già integrabile tramite ML Kit GenAI Prompt API, con un Developer Preview per Agent Mode in Android Studio. I modelli sono stati addestrati su oltre 140 lingue, il che abbatte le barriere per chi costruisce applicazioni destinate a mercati non anglofoni.
Il 26B MoE (A4B) è architetturalmente più generoso: attivando solo 3,8 miliardi di parametri durante l’inferenza su un totale di 25,2 miliardi, si comporta dal punto di vista computazionale come un modello da 4B, il che lo rende compatibile con GPU consumer di fascia media .
Gemma 4: Benchmark
Il grafico “Model Performance VS Size” sotto mette in relazione l’Elo Score di Arena AI con il numero totale di parametri (in miliardi, su scala logaritmica) per una serie di modelli linguistici, e la conclusione che emerge è piuttosto netta.

I due modelli gemma-4-31B-thinking e gemma-4-26B-A4B-thinking, evidenziati dall’area triangolare azzurra nella parte sinistra del grafico, ottengono rispettivamente un Elo di circa 1452 e 1441 con appena 25-30 miliardi di parametri effettivi, collocandosi così nella fascia alta delle performance pur essendo tra i modelli più leggeri rappresentati. Il confronto con la concorrenza rende tutto più chiaro:
| Modello | Parametri totali | Elo Score |
|---|---|---|
| gemma-4-31B-thinking | ~25B | ~1452 |
| gemma-4-26B-A4B-thinking | ~26B | ~1441 |
| qwen3.5-397b-a17b | ~400B | ~1448 |
| glm-5 | ~600B | ~1455 |
| kimi-k2.5-thinking | ~1000B | ~1458 |
| deepseek-v3.2-exp-thinking | ~300B | ~1424 |
| mistral-large-3 | ~500B | ~1414 |
| gpt-oss-120b | ~120B | ~1354 |
Modelli come qwen3.5-397b o mistral-large-3 richiedono centinaia di miliardi di parametri per avvicinarsi o restare al di sotto degli score di Gemma 4, e poiché l’asse X è in scala logaritmica, la distanza visiva tende persino a sottostimare il divario reale in termini di costi hardware e consumi.
Solo glm-5 e kimi-k2.5-thinking superano i modelli Google, ma lo fanno portando in campo rispettivamente 600 e 1000 miliardi di parametri, ovvero un peso computazionale incomparabilmente più alto, il che rende il posizionamento di Gemma 4 nell’angolo in alto a sinistra del grafico la sintesi visiva più efficace del concetto di intelligence-per-parameter che Google DeepMind rivendica per questa famiglia di modelli. Impietoso anche il paragone con il modello open source di OpenAI gpt-oss-120b, ormai nettamente declassato.

Gemma 4: una release che vale la pena testare
Gemma 4 è una famiglia che funziona su più livelli. Sul piano tecnico, l’approccio MoE con 128 esperti, l’architettura ibrida di attenzione e la scelta delle dimensioni calibrate sull’hardware esistente mostrano che Google ha ascoltato i feedback della comunità. Oltre 400 milioni di download per le generazioni precedenti tra cui Gemma 3 non sono un numero che si può ignorare.
Sul piano della licenza, il passaggio ad Apache 2.0 elimina un freno reale che aveva tenuto lontane molte aziende dall’adozione in produzione. Non è un atto di generosità, è una scelta competitiva in un ecosistema dove Qwen e Mistral hanno già dimostrato che la libertà di licenza attira comunità più ampie e contributi più solidi.
I benchmark su Arena AI e AIME 2026 sono promettenti sulla carta, ma le prestazioni reali dipendono sempre dal caso d’uso specifico, dal dataset su cui si lavora e dalla qualità del fine-tuning.
Se stai cercando un modello da integrare in un’applicazione enterprise, in un flusso agentico o semplicemente vuoi un assistente di codice che giri offline, Gemma 4 merita di essere messo alla prova. La barriera d’ingresso non è mai stata così bassa.













