Gemma 4 accelera l'inferenza AI: i drafter MTP riducono la latenza fino a 3 volte

Solo poche settimane fa Google ha lanciato Gemma 4, una famiglia di modelli open con prestazioni senza precedenti su hardware consumer, dispositivi mobili e cloud. Oggi Google ha annunciato i drafter MTP (Multi-Token Prediction) per la famiglia Gemma 4, un aggiornamento tecnico che affronta uno dei problemi più persistenti nell’inferenza dei modelli linguistici di grandi dimensioni: la latenza nel processo di inferenza. L’inferenza è il processo con cui un modello già addestrato prende un input, ovvero la tua domanda, e genera un output.

In termini pratici, questa architettura MTP permette di raggiungere accelerazioni fino a tre volte nella generazione dei token (inferenza), senza degradazione nella qualità dell’output o nella logica di ragionamento. Lo stesso modello, gli stessi pesi, la stessa accuratezza — ma con una velocità sensibilmente superiore. E quando si eseguono dei modelli in locale su hardware consumer la velocità è un parametro fondamentale.

Gemma 4 ha già superato i 60 milioni di download nelle prime settimane dal lancio, registrando un’adozione capillare tra sviluppatori e ricercatori di tutto il mondo. La velocità di inferenza è spesso il collo di bottiglia principale per il deployment in produzione: che si tratti di assistenti alla programmazione, agenti autonomi con pianificazione multi-step o applicazioni mobile che girano interamente on-device, ogni millisecondo di latenza ha un peso diretto sull’esperienza utente.

Google ha ripensato la pipeline di decodifica in modo strutturale, integrando il modello di bozza direttamente nell’architettura del modello target.

Come funziona la decodifica speculativa in Gemma 4

I modelli linguistici standard generano testo in modo autoregressivo: un token alla volta, dove ogni nuovo token dipende da tutti quelli precedenti. Questo approccio ha un limite strutturale: il processore trascorre la maggior parte del tempo a spostare miliardi di parametri dalla VRAM alle unità di calcolo solo per produrre un singolo token. Il risultato è un sottoutilizzo delle risorse computazionali e latenze elevate.

La decodifica speculativa risolve questo problema separando generazione e verifica. Gemma 4 abbina il modello target, ad esempio il 31B Dense, a un drafter MTP più leggero e rapido, che prevede diversi token in anticipo sfruttando il tempo di inattività del processore. Il modello target verifica poi tutti i token candidati in parallelo in un unico forward pass.

Gemma 4 26B, inferenza standard (a sinistra) vs. MTP Dafter (a destra) in token al secondo. Credits : Google.com

Se accetta l’intera sequenza proposta, genera anche un token aggiuntivo nello stesso passaggio: ciò significa che in un tempo pari a quello necessario per produrre un singolo token, l’applicazione riceve l’intera sequenza di bozza più uno. Se invece rifiuta un token, produce comunque il token corretto per quella posizione, evitando sprechi computazionali.

Il drafter non è un componente separato e indipendente: condivide la tabella di incorporamento dell’input con il modello di destinazione e utilizza direttamente le attivazioni dell’ultimo livello del target, abbattendo il costo della generazione delle bozze e garantendo coerenza con il modello principale.

Ottimizzazioni architetturali

Rispetto a una pipeline di decodifica speculativa standard, Gemma 4 introduce diverse ottimizzazioni specifiche. Il drafter condivide la KV cache con il modello target, eliminando il costo di ricalcolare contesti già elaborati.

Per i modelli edge E2B ed E4B, dove il calcolo dei logit sull’intero vocabolario costituisce un collo di bottiglia rilevante, è stata implementata una tecnica di clustering nell’embedder: il modello raggruppa i token simili in cluster, identifica quelli più probabili e limita i calcoli finali ai soli token dei cluster selezionati.

Il comportamento varia in modo apprezzabile a seconda dell’hardware e della dimensione del batch. Il modello 26B A4B, basato su architettura Mixture of Experts (MoE), presenta dinamiche particolari: ogni token può attivare esperti diversi, e con un batch size pari a 1 la sovrapposizione degli esperti attivati tra sequenze diverse risulta limitata, riducendo i vantaggi della decodifica speculativa.

Su Apple Silicon, aumentare la dimensione del batch da 1 a un range tra 4 e 8 sblocca un’accelerazione di circa 2,2x. Comportamenti analoghi si osservano su GPU Nvidia A100. Se stai pianificando di usare il modello 26B in un contesto server con più richieste concorrenti, configurare batch size adeguate è una variabile operativa da non sottovalutare per sfruttare appieno il potenziale dei drafter MTP.

Disponibile subito

I drafter MTP per Gemma 4 sono disponibili sotto licenza Apache 2.0, la stessa che copre il modello base, e sono compatibili con i principali framework di inferenza tra cui Hugging Face Transformers, MLX, vLLM, SGLang e Ollama. I pesi sono scaricabili da Hugging Face e Kaggle; per chi sviluppa su mobile, è disponibile anche Google AI Edge Gallery per Android e iOS.

Dal punto di vista pratico, questa tecnologia abbassa la soglia d’accesso per chi lavora su hardware consumer. Eseguire un modello da 26B o 31B parametri su una workstation locale con una GPU moderna diventa un’esperienza sostanzialmente diversa rispetto all’inferenza standard, con tempi di attesa che si riducono fino alla metà.

I drafter MTP funzionano al meglio quando i token di bozza hanno un’alta probabilità di essere accettati dal modello target, ovvero quando la generazione è relativamente prevedibile. In scenari di output altamente creativi o con distribuzioni molto variabili, il tasso di accettazione può risultare inferiore.

Detto questo, per la grande maggioranza degli utilizzi pratici, tra cui generazione di codice, ragionamento strutturato, risposte conversazionali e riassunti, i drafter MTP costituiscono un miglioramento effettivo e misurabile, senza costi aggiuntivi e senza rinunciare alla qualità del modello base.

Ultimi Articoli

Gemma 4 accelera l’inferenza grazie ai drafter multi-token

Come funziona la decodifica speculativa in Gemma 4

Ottimizzazioni architetturali

Disponibile subito

Articoli collegati