Rilasciato il 16 febbraio 2026 alla vigilia del Capodanno Lunare, Qwen 3.5 è la nuova famiglia di modelli AI sviluppata dal team Qwen di Alibaba Cloud pensata per agenti multimodali nativi. Qwen 3.5 si colloca in diretta competizione con i modelli di punta di GPT 5.2 di OpenAI, Claude Opus 4.6 di Anthropic e Gemini 3 Pro di Google. Rispetto al predecessore Qwen3-Max, che contava oltre 1 trilione di parametri, il nuovo modello ottiene risultati migliori su molti benchmark pur essendo architetturalmente più leggero (397 miliardi di parametri).
Il modello nasce con una chiara attenzione a scalabilità, controllo dei dati e integrazione in ambienti cloud ibridi. Qwen 3.5 non si limita al testo, integra anche capacità multimodali testo-immagine–video, allineandosi alle offerte dei concorrenti occidentali.
Il modello si rivolge soprattutto a sviluppatori indipendenti, team di prodotto e imprese che vogliono deployare localmente o scalare sul cloud senza dipendere da API costose e proprietarie. I punti forti sono l’efficienza, le capacità agentiche native e il prezzo contenuto che lo rendono una delle opzioni più interessanti del 2026 per chi cerca potenza reale senza spendere una fortuna.
Due modelli Qwen 3.5
La famiglia include due varianti: Qwen 3.5-Plus e Qwen 3.5-397B-A17B. Qwen 3.5-Plus è la versione chiusa e ospitata direttamente sul cloud di Alibaba Cloud Model Studio. Si tratta del modello gestito pronto all’uso tramite API, con finestra di contesto da 1 milione di token, tool integrati per ricerca web e esecuzione codice, e la modalità Thinking attivata di default. È pensata per chi vuole scalare velocemente senza gestire server.
Qwen 3.5-397B-A17B invece è la versione open-weight, ovvero i pesi completi che puoi scaricare gratis da Hugging Face e ModelScope con licenza Apache 2.0. Ha esattamente la stessa architettura MoE da 397 miliardi di parametri totali e solo 17 miliardi attivi, quindi prestazioni quasi identiche in ragionamento, visione e agenti. La differenza principale è che va eseguita sul proprio hardware o sul cloud, la finestra di contesto nativo è di 262.144 token, e va integrata manualmente con eventuali tool esterni. In pratica è perfetta per chi vuole controllo totale, zero costi di licenza e deployment locale o privato.
L’architettura ibrida con MoE sparse e Gated DeltaNet
Qwen 3.5 adotta un design completamente nuovo che combina reti di attenzione lineare (Gated DeltaNet) con esperti sparsi MoE. Il risultato è che il modello mantiene la conoscenza di un sistema da quasi 400 miliardi di parametri ma attiva solo 17 miliardi per ogni token processato.
La struttura prevede 60 layer organizzati in 15 blocchi, ciascuno composto da tre layer Gated DeltaNet+MoE seguiti da un layer Gated Attention+MoE. Questa combinazione ottimizza in modo rilevante l’utilizzo della memoria. In scenari con contesti da 32.000 token, il throughput in decoding è 8,6 volte superiore rispetto al precedente Qwen3-Max.

Per contesti lunghi fino a 256.000 token, il miglioramento raggiunge le 19 volte, con una riduzione del 60% nell’utilizzo di VRAM in deployment. La finestra di contesto nativa è di 262.144 token, estendibile fino a 1.010.000 nella versione Plus.
Qwen 3.5: benchmark e prestazioni
I risultati pubblicati dal team Qwen posizionano Qwen3.5-397B-A17B nella stessa fascia prestazionale dei modelli frontier statunitensi.
Linguaggio e ragionamento
| Benchmark | Qwen 3.5 (397B-A17B) | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro |
|---|---|---|---|---|
| MMLU-Pro (conoscenza) | 87,8 | 87,4 | 89,5 | 89,8 |
| GPQA (STEM) | 88,4 | 92,4 | 87,0 | 91,9 |
| IFBench (istruzioni) | 76,5 | 75,4 | 58,0 | 70,4 |
| LiveCodeBench v6 | 83,6 | 87,7 | 84,8 | 90,7 |
Sull’MMLU-Pro, Qwen 3.5 supera GPT-5.2 di 0,4 punti. Sul GPQA cede invece a entrambi i modelli americani. Il vantaggio più netto arriva sull’IFBench, dove il distacco da Claude 4.5 Opus è di quasi 18 punti: un divario che valorizza la capacità del modello di seguire istruzioni complesse e articolate.
Visione, documenti e agenti
| Benchmark | Qwen 3.5 (397B-A17B) | Qwen3-VL (prev.) | Gemini 3 Pro |
|---|---|---|---|
| MathVision | 88,6 | 74,6 | 86,6 |
| RealWorldQA | 83,9 | 81,3 | 83,3 |
| OmniDocBench 1.5 | 90,8 | 88,5 | 88,5 |
| BFCL-V4 (agent) | 72,9 | 67,7 | 72,5 |
È qui che Qwen 3.5 convince maggiormente. Su MathVision il salto rispetto alla versione precedente è di oltre 14 punti. Su OmniDocBench 1.5, che misura la comprensione di documenti complessi, il modello supera Gemini 3 Pro di 2,3 punti netti.
Prezzi, disponibilità e confronto competitivo
Qwen3.5-397B-A17B è disponibile con licenza Apache 2.0 su Hugging Face e ModelScope: costo zero per chi vuole eseguirlo in locale con hardware adeguato. Per il deployment si consiglia vLLM con parallelismo tensor su 8 GPU, oppure SGLang, configurazione necessaria data la dimensione del modello.
Per il deployment in self-hosting, il punto di partenza è questo:
vllm serve Qwen/Qwen3.5-397B-A17B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3La versione managed Qwen3.5-Plus ha un costo di $0,40/M tokens in input e $2,40/M tokens in output. Questo equivale a 1/18 del costo di Gemini 3 Pro, il che la rende una delle opzioni più economiche nella categoria frontier. Da notare che il prezzo è sceso decisamente se comparato con il modello Qwen3-Max ($1,20/M tokens in input e $6,00/M tokens in output)
| Modello | Input (per 1M token) | Output (per 1M token) |
|---|---|---|
| DeepSeek-V3.2 | $0.07 | $0.42 |
| Grok 4.1 Fast (xAI) | $0.20 | $0.50 |
| MiniMax M2.5 | $0.15 | $1.20 |
| MiniMax M2.5-Lightning | $0.30 | $2.40 |
| Qwen3.5 397B A17B | $0.60 | $3.60 |
| Qwen3.5 Plus | $0.40 | $2.40 |
| Kimi K2.5 | $0.60 | $3.00 |
| GLM-5 | $0.80 | $2.56 |
| GPT-5.1 | $1.25 | $10.00 |
| GPT-5.2 | $1.75 | $14.00 |
| Gemini 3 Pro (Google) | $2.00 | $12.00 |
| Claude Sonnet 4.5 (Anthropic) | $3.00 | $15.00 |
| Grok 4 (xAI) | $3.00 | $15.00 |
| Claude Opus 4.6 (Anthropic) | $5.00 | $25.00 |
| GPT-5 Pro | $15.00 | $120.00 |
| GPT-5.2 Pro | $21.00 | $168.00 |
I modelli Qwen3.5 sono disponibili tramite l’API di Alibaba Cloud Model Studio, oltre che su diversi provider come OpenRouter. Qwen3.5 lo trovi anche sulla chat conversazionale aperta e gratuita per tutti chat.qwen.ai: inoltre anche su Cline per VS Code, JetBrains, Zed, Neovim, Emacs e la CLI di Cline.
Un modello per chi non vuole scegliere tra prestazioni e costi
Qwen 3.5 dimostra che l’efficienza architetturale può essere una leva competitiva quanto i parametri grezzi. Per chi deve decidere quale modello adottare nel 2026, la domanda giusta non è se Qwen 3.5 sia il migliore in assoluto, ma se si adatti al proprio caso d’uso.
Se hai bisogno di reasoning avanzato e consistenza su task avanzati, Claude Opus 4.6 mantiene un vantaggio percepibile. Se lavori nell’ecosistema Microsoft, GPT-5.2 è la scelta più integrata. Ma se hai vincoli di budget, vuoi libertà dal vendor lock-in o stai costruendo workflow agentici multimodali, Qwen 3.5, insieme a Kimi 2.5, GLM 5 e Minimax 2.5, è probabilmente il modello su cui vale la pena investire attenzione adesso.
Il fatto che tutto questo sia disponibile gratuitamente in locale, con una licenza permissiva, cambia la conversazione sul costo reale dell’AI per chiunque abbia l’infrastruttura per eseguirlo. Nei prossimi mesi arriveranno ulteriori release della famiglia Qwen 3.5, incluse versioni compatte pensate esplicitamente per hardware consumer: tienile d’occhio.











