E' arrivato DeepSeek V4: efficienza e prezzi che mettono pressione a tutti i big dell'AI

DeepSeek AI la società cinese specializzata nello sviluppo di modelli linguistici open-source ad alte prestazioni, nota per offrire alternative competitive ai grandi modelli occidentali, ha rilasciato oggi DeepSeek V4, il suo modello più ambizioso fino a oggi. La famiglia si articola in due varianti: DeepSeek V4 Pro, con 1,6 trilioni di parametri totali e 49 miliardi attivati per token, e V4 Flash, più compatto con 284 miliardi di parametri totali e 13 miliardi attivati.

Il salto rispetto a DeepSeek V3.2 è la finestra di contesto da un milione di token, che abilita scenari applicativi prima impraticabili. Altrettanto rilevante è la scelta di rilasciare i pesi con licenza MIT, che lo rende liberamente utilizzabile anche in contesti commerciali.

DeepSeek V4 si rivolge principalmente a sviluppatori, ricercatori e aziende che lavorano su task di coding avanzato, ragionamento complesso e analisi di documenti lunghi. I punti forti sono un rapporto prestazioni/costo molto competitivo, una capacità multimodale nativa su testo, immagini, video e audio e la possibilità di eseguire il modello localmente su hardware adeguato.

DeepSeek V4: un’architettura pensata per il contesto lungo

Al centro di DeepSeek V4 c’è l’architettura Mixture-of-Experts (MoE), che permette di mantenere contenuto il numero di parametri effettivamente calcolati per ogni token, tra 13 e 49 miliardi a seconda della variante, pur disponendo di un modello complessivamente molto grande.

Su questa base, il team ha introdotto tre novità architetturali. La prima è il meccanismo di attenzione ibrido, che combina Compressed Sparse Attention (CSA) e Heavily Compressed Attention (HCA). In pratica, per sequenze che possono arrivare a un milione di token, il modello comprime la cache chiave‑valore in blocchi, riducendo drasticamente il numero di operazioni e la memoria occupata. La CSA raggruppa ogni quattro token in un unico elemento compresso e poi applica un’attenzione sparsa selezionando solo i blocchi più rilevanti, mentre la HCA comprime in modo ancora più aggressivo, consolidando fino a 128 token in una singola voce.

La versione Pro richiede solo il 27% dei FLOP per singolo token e il 10% della KV cache nelle sessioni da un milione di token, un risultato che rende gestibile l’uso di contesti molto estesi senza costi computazionali elevati.

Seconda novità è Manifold-Constrained Hyper-Connections (mHC), una tecnica che stabilizza la propagazione dei segnali attraverso i molti strati della rete, riducendo problemi di instabilità tipici dei modelli molto profondi. La terza è l’adozione dell’ottimizzatore Muon durante il pre-training, che accelera la convergenza e migliora la stabilità dell’addestramento.

Per la messa in produzione, è stata introdotta la quantizzazione FP4 per i pesi degli esperti MoE e per il percorso Query-Key nell’indicizzatore della CSA, riducendo ulteriormente i consumi di memoria e calcolo.

Cosa dicono i benchmark: numeri solidi, ma da verificare

DeepSeek V4 Pro nella modalità di ragionamento massima (Think Max) mostra risultati competitivi sui principali benchmark di settore. Su GPQA Diamond, un test di domande scientifiche ad alto livello, raggiunge il 90,1% contro il 91,3% di Claude Opus 4.6 Max e il 94,3% di Gemini 3.1 Pro High.

Su LiveCodeBench, benchmark di coding su problemi reali, V4 Pro Max ottiene il 93,5%, superando sia Opus 4.6 Max che le altre varianti testate. Sul fronte del contesto lungo i risultati sono particolarmente interessanti: su MRCR 1M, che misura la capacità di recupero delle informazioni in finestre da un milione di token, V4 Pro raggiunge l’83,5% mentre Gemini 3.1 Pro si ferma al 76,3%.

Su SWE-bench Verified, test di risoluzione automatica di bug reali su codebase GitHub, il modello segna l’80,6%, sostanzialmente in linea con i competitor principali.

Anche il modello più piccolo, V4‑Flash in modalità Max, regge il confronto con giganti come GPT‑5.2 e Gemini 3.0 Pro, dimostrando che l’efficienza architetturale non sacrifica la qualità. Sul fronte dei task agentici, le performance su SWE‑Verified e Terminal Bench 2.0 sono competitive con Kimi K2.6 e GLM‑5.1, anche se rimangono leggermente inferiori ai migliori modelli proprietari.

Vale però una precisazione importante: la maggior parte di questi numeri proviene da benchmark interni DeepSeek, e le validazioni indipendenti sono ancora in corso. Se stai valutando l’adozione del modello, è ragionevole trattare queste cifre come indicative e attendere le prime valutazioni terze prima di prendere decisioni critiche.

Prezzi, disponibilità e confronto competitivo

DeepSeek V4 arriva con una politica di prezzi che mette sotto pressione l’intero mercato. Il modello Pro costa 1,74 dollari per milione di token in input e 3,48 per milione in output, circa un terzo di Claude Opus 4.7 e un quarto di GPT‑5.5. Il Flash è ancora più economico, con tariffe di 0,14 dollari in input e 0,28 in output, rendendolo appetibile per automazioni su larga scala e agenti che consumano molti token: prezzi che si posizionano decisamente al di sotto dei modelli comparabili di OpenAI e Anthropic.

Modello	Input (per 1M token)	Output (per 1M token)
DeepSeek-V4 Flash	$0.07	$0.42
Grok 4.1 Fast (xAI)	$0.20	$0.50
MiniMax M2.5	$0.15	$1.20
MiniMax M2.5-Lightning	$0.30	$2.40
Qwen3.6 Plus	$0.32	$1.95
Kimi K2.6	$0.60	$2.80
GLM-5.1 (Z.ai)	$0.95	$3.15
DeepSeek-V4 Pro	$1.74	$3.48
Grok 4.2 (xAI)	$2.00	$6.00
Gemini 3.1 Pro (Google)	$2.00	$12.00
GPT-5.4	$2.50	$15.00
Claude Sonnet 4.6 (Anthropic)	$3.00	$15.00
Claude Opus 4.7 (Anthropic)	$5.00	$25.00
GPT-5.4 Pro	$30.00	$180.00

La versione Flash è pensata per chi ha bisogno di velocità, risposte rapide e costi ridotti. Con i suoi 13 miliardi di parametri attivati risulta circa cinque volte più piccola della Pro, molto più rapida nelle risposte e con un sacrificio contenuto in termini di qualità sulle task di ragionamento complesso. Entrambe le versioni supportano tre modalità di ragionamento:

Non-think. Risposte rapide, ideale per task di routine a bassa complessità.
Think High. Analisi logica approfondita, adatta a problemi che richiedono pianificazione.
Think Max. Ragionamento spinto al massimo, pensato per esplorare i limiti del modello.

Esecuzione in locale

Entrambi i modelli sono rilasciati con pesi aperti su Hugging Face, quindi, disponendo dell’hardware adeguato, è possibile eseguirli in locale senza costi ricorrenti.

Per il Pro servono circa 900‑1000 GB di VRAM, quindi un data center, mentre il Flash può girare su configurazioni più abbordabili e consumer, come una coppia di RTX PRO 6000 o RTX 4090: con un po’ di compressione, Flash può girare su una singola scheda di fascia alta come la RTX 5090.

I primi commenti degli sviluppatori su Reddit sono unanimi: in molti vedono in DeepSeek V4 la possibilità di ridurre drasticamente le bollette API senza perdere qualità, e si ipotizza che questa strategia possa innescare una guerra dei prezzi tra i fornitori big.

Sulla carta il rapporto qualità‑prezzo è il più aggressivo mai visto per un modello di questa caratura.

DeepSeek v4: vale la pena provarlo subito?

La combinazione di un milione di token di contesto nativo, architettura MoE efficiente e prezzi API competitivi rende DeepSeek v4 molto interessante per chi lavora su task di coding avanzato, analisi documentale su testi lunghi o sviluppo di agenti AI.

La versione Flash è particolarmente adatta a chi ha bisogno di velocità senza rinunciare troppo alla qualità, mentre la versione Pro con Think Max si candida a strumento serio per problemi complessi di coding, ragionamento e matematica.

Se sei uno sviluppatore o un ricercatore curioso, questo è il momento giusto per testarlo direttamente: puoi iniziare a testarlo via API con una spesa minima oppure, se hai l’hardware, scaricarlo e integrarlo nei tuoi flussi di lavoro. Con DeepSeek V4, il laboratorio cinese non ha solo alzato il livello tecnico, ha riscritto le regole del gioco sul prezzo, e questa è una notizia che nessuno nel settore può permettersi di ignorare.

Per tutti i dettagli tecnici, è disponibile il paper di DeepSeek V4.

Ultimi Articoli

DeepSeek V4: un’efficienza che mette pressione a tutti i big dell’AI

DeepSeek V4: un’architettura pensata per il contesto lungo

Cosa dicono i benchmark: numeri solidi, ma da verificare

Prezzi, disponibilità e confronto competitivo

Esecuzione in locale