DeepSeek, la nota azienda cinese di intelligenza artificiale, ha rilasciato oggi DeepSeek-V3.2, un modello open source che cambia radicalmente il rapporto tra prestazioni e accessibilità-costi nel settore degli LLM. L’annuncio è accompagnato dalla variante DeepSeek-V3.2-Speciale (sperimentale), ottimizzata per il ragionamento esteso, che ha dimostrato capacità da primo della classe nelle Olimpiadi Internazionali di Matematica e Informatica.


Questo duplice rilascio, disponibile sia come servizio API che come modello open-source su piattaforme come Hugging Face, sottolinea un obiettivo. Ossia, democratizzare l’accesso a tecnologia d’avanguardia, offrendo un’alternativa efficiente ed economicamente sostenibile ai modelli proprietari dominanti. Mentre i colossi come OpenAI, Anthropic, Google e xAI continuano a rilasciare modelli con costi per milione token molto elevati, DeepSeek taglia ulteriormente il costo delle sue API.
DeepSeek-V3.2 ha capacità di ragionamento all’avanguardia con prestazioni pari al nuovo modello di Google, Gemini 3.0 Pro. E’ già stato disponibile gratuitamente sul sito web ufficiale, sull’app Deepseek per Android e iOS e tramite API. La versione Speciale è disponibile solo in API e solo per quindici giorni, per consentirne la valutazione da parte della comunità.
DeepSeek Sparse Attention: l’idea che supera il collo di bottiglia computazionale
Il cuore tecnico di DeepSeek-V3.2 risiede nella nuova DeepSeek Sparse Attention (DSA). Un meccanismo di attenzione progettato per risolvere il problema della complessità quadratica (O(L²)) dell’attenzione standard dei Transformer. “O” indica la complessità computazionale di un algoritmo. Indica come il tempo di esecuzione o l’uso di memoria aumenta al crescere della dimensione dell’input (L); ovvero il numero totale di token ( i token sono una sorta di parole usate nel contesto AI). Come risulta dalla formula, con i modelli attuali O cresce in modo quadratico aumentando il contesto.
In scenari a contesto lungo, come l’elaborazione di documenti estesi o codebase complessi, questo costo computazionale diventa elevato; questo significa maggiori costi per token che limitano di fatto l’utilità pratica degli LLM. Soprattutto per chi ha un budget ridotto.
La DSA aggira questo ostacolo attraverso un approccio a due stadi; un lightning indexer leggero e veloce valuta rapidamente l’intero contesto precedente per assegnare un punteggio di rilevanza a ciascun token; successivamente, un meccanismo di selezione fine (fine-grained token selection) seleziona solo i token più rilevanti (circa 2.048). Il risultato è una riduzione della complessità a O(L × k), che consente una gestione efficiente di contesti fino a 128.000 token. Quindi aumentando il numero di token, si passa da una crescita quadratica (O(L²)) a una crescita lineare (O(L × k)) della complessità computazionale.


Per garantire che questa transizione da attenzione densa a sparsa non comprometta le prestazioni apprese, il processo di formazione esegue una fase iniziale di dense warm-up in cui allena solo l’indexer come a imitare il comportamento dell’attenzione completa. Quindi segue una fase di sparse training che adatta l’intero modello al nuovo regime.
Ragionamento specializzato e agenti scalabili
Questo approccio ibrido permette a DeepSeek-V3.2 di mantenere elevate performance qualitative; al contempo ottiene notevoli guadagni in efficienza di inferenza e riduzione dei costi operativi. Oltre all’innovazione architetturale, DeepSeek-V3.2 è alimentato da una sofisticata pipeline di post-formazione che combina distillazione specialistica e apprendimento per rinforzo (RL) su larga scala. La metodologia prevede prima la creazione di modelli specializzati ottimizzati per domini specifici come matematica, programmazione e ragionamento logico; questi modelli, addestrati con ingenti risorse computazionali RL, vengono poi utilizzati per generare dati di alta qualità che vengono distillati nel modello generale finale. Questo processo consente a DeepSeek-V3.2 di ereditare capacità specialistiche senza sacrificare l’efficienza.
Un’altra componente distintiva è l’integrazione nativa del ragionamento nei flussi agentici (thinking in tool-use). A differenza di approcci precedenti che separavano il pensiero dall’ azione, V3.2 permette di mantenere la traccia del ragionamento (chain-of-thought) attiva fino all’arrivo di una nuova richiesta dell’operatore. Questa gestione del contesto, consente al modello di affrontare compiti multi-step complessi dalla risoluzione di bug di software alle ricerche web articolate.
Benchmark e prestazioni
Le capacità di DeepSeek-V3.2 sono state validate da un’ampio insieme di benchmark che coprono ragionamento, programmazione e abilità agentiche. Nei test di ragionamento puro (MMLU-Pro, GPQA Diamond, AIME, HMMT), la versione standard di DeepSeek-V3.2-Thinking raggiunge prestazioni paragonabili a GPT-5-High, posizionandosi leggermente dietro a Gemini-3.0-Pro e nettamente davanti ad altri modelli open-source come Kimi-K2-Thinking; il tutto con una lunghezza di output notevolmente ridotta che implica minori costi computazionali.


La variante Speciale, progettata per esplorare i limiti del ragionamento esteso, supera invece Gemini-3.0-Pro in diversi benchmark matematici. Nelle valutazioni agentiche, ambito tradizionalmente dominato dai modelli chiusi, DeepSeek-V3.2 riduce drasticamente il divario. Su benchmark come SWE-bench Verified, Terminal Bench 2.0 e MCP-Universe, dimostra capacità competitive. Tuttavia, persistono alcune aree di miglioramento per esempio nel test Humanity’s Last Exam (HLE) che testa la conoscenza multidiscipllinare; capacità meno approfondita rispetto altri modelli a causa del budget di pre-formazione comunque inferiore.


L’economia dell’accesso: un vantaggio strategico nei costi API
Il modello di DeepSeek-V3.2 rappresenta un ulteriore elemento di rottura strategica nel mercato degli LLM. Mentre i principali player proprietari hanno adottato politiche di pricing progressive, spesso legate a costosi piani di abbonamento, DeepSeek ha optato per una riduzione dei costi API superiore al 50% rispetto alle generazioni precedenti.
La politica dei prezzi di DeepSeek-V3.2 è un elemento strategico che ridefinisce la competitività sul mercato. Il modello, oltre a offrire prestazioni pari a GPT-5 in molti benchmark, lo fa con costi operativi radicalmente inferiori. Questa tabella confronta i costi API per milione di token tra DeepSeek-V3.2 e i principali modelli concorrenti. Considera che il consumo di token di output supera solitamente quello di input, rendendo il costo per l’output il fattore più significativo in un budget.
| Modello | Prezzo Input (per 1M token) | Prezzo Output (per 1M token) |
|---|---|---|
| DeepSeek-V3.2 | $0.07 | $0.42 |
| GPT-5 Pro (OpenAI) | $15.00 | $120.00 |
| GPT-5.1 (OpenAI) | $1.25 | $10.00 |
| Gemini 3 Pro (Google) | $2.00 – $4.00 | $12.00 – $18.00 |
| Claude Opus 4.5 (Anthropic) | $5.00 | $25.00 |
| Claude Sonnet 4.5 (Anthropic) | $3.00 | $15.00 |
| Grok 4.1 Fast (xAI) | $0.20 | $0.50 |
| Grok 4 (xAI) | $3.00 | $15.00 |
Il vantaggio di DeepSeek-V3.2 non è marginale, ma esponenziale rispetto ai modelli di frontiera chiusi. Un task che costa $120.00 in output con GPT-5 Pro, costa solo $0.42 con DeepSeek-V3.2. Questo rende economicamente fattibili a tutti applicazioni prima proibitive, come agenti autonomi a lunga esecuzione o l’elaborazione di massa di documenti lunghi. Anche se paragonato ai modelli ottimizzati (con qualche compromesso sulle prestazioni) come Grok 4.1 Fast, DeepSeek mantiene un prezzo inferiore. Questo posiziona DeepSeek-V3.2 come l’opzione più economica, senza compromessi sostanziali sulle prestazioni.
DeepSeek-V3.2-Speciale
DeepSeek-V3.2-Speciale è una variante sperimentale del modello, progettata esplicitamente per spingere al limite le capacità di ragionamento puro. Speciale genera output molto più lunghi della controparte standard ed è notevolmente meno efficiente in termini di token; il che ne limita l’uso a scenari dove la massima accuratezza è prioritaria rispetto a costi e latenza. Inoltre, Speciale non è ottimizzato per compiti brevi.
DeepSeek-V3.2-Speciale presenta limitazioni significative, direttamente correlate al suo obiettivo sperimentale. Sarà temporaneamente disponibile esclusivamente in API (stesso costo del modello V3.2) e in forma sperimentale solo fino al 15 dicembre 2025.
Dal punto di vista funzionale, il modello presenta diverse limitazioni. Non supporta chiamate a strumenti esterni (tool calls) né la generazione di output strutturati in JSON, caratteristiche fondamentali per creare applicazioni agentiche o automatizzate. È accessibile esclusivamente in “modalità thinking”. Il suo utilizzo è consigliato per la valutazione sulle massime capacità di ragionamento logico-matematico, lasciando al modello V3.2 standard il ruolo di opzione versatile e bilanciata per tutti gli altri scenari.
Un nuovo standard per l’intelligenza artificiale accessibile
DeepSeek-V3.2 cerca di imporre un nuovo standard di efficienza economica. Per chi sviluppa applicazioni pratiche, specialmente quelle che implicano flussi di lavoro agentici complessi o grandi volumi di testo; rappresenta ora l’opzione con il miglior rapporto costo-prestazioni disponibile. Non si tratta semplicemente di un modello che emula i giganti. La combinazione di attenzione sparsa efficiente (DSA), formazione RL su larga scala e l’integrazione nativa pensiero-azione lo rende uno strumento ideale per sviluppatori che costruiscono assistenti, sistemi agentici per la programmazione o automazioni che richiedono interazione con API esterne.
Pur riconoscendo i limiti attuali in termini di conoscenza, il modello dimostra ancora una volta che la qualità di frontiera non è un’esclusiva dei modelli a pagamento. Questo approccio, incentrato sull’accessibilità e sull’efficienza, potrebbe influenzare la direzione futura dell’intero settore, spingendo verso architetture più scalabili.
DeepSeek v3.2 non è la soluzione definitiva, ma è un passo avanti concreto e pratico. Per chiunque sia coinvolto nello sviluppo di applicazioni, DeepSeek-V3.2 merita un’attenta valutazione non solo come alternativa economica, ma anche tecnicamente solida.










