A pochi giorni dall’uscita del sorprendente modello AI Gemma 4 di Google specializzato per essere eseguito in locale anche su hardware di modeste capacità, Alibaba ora ha presentato Qwen3.6-35B-A3B che cambia nuovamente le regole del gioco.
Qwen3.6-35B-A3B è un piccolo modello open source di tipo Mixture-of-Experts (MoE) con solo 35 miliardi di parametri totali, di cui attiva soltanto 3 miliardi (A3B) per ogni token elaborato. Quindi alla portata di quasi qualsiasi hardware consumer. Il modello è stato rilasciato come open-source con pesi disponibili su Hugging Face e ModelScope in formato BF16, compatibile con i principali framework di inferenza come vLLM, SGLang e KTransformers.
Il modello include capacità multimediali, di ragionamento, multilingue, di coding e agentiche; grazie all’attivazione parziale risulta inoltre estremamente veloce. In un ecosistema dove i modelli proprietari dominano per qualità, Qwen3.6-35B-A3B si posiziona come una proposta interessante da valutare per chi vuole prestazioni da fascia media senza dipendere da API a pagamento.
Un’architettura progettata per il coding agentivo
L’elemento tecnico più rilevante è come la struttura interna del modello gestisce compiti complessi. L’architettura è composta da 40 layer con un layout ibrido: blocchi Gated DeltaNet alternati a layer di Gated Attention, entrambi abbinati a strati MoE con 256 esperti totali, di cui 8 vengono attivati per routing dinamico più uno condiviso.
La finestra di contesto nativa è di 262.144 token, espandibile fino a circa un milione di token. Su questa base tecnica, il team ha lavorato in modo specifico sulla capacità di coding agentivo, cioè la capacità del modello di navigare repository, ragionare su file multipli, gestire strumenti e produrre patch funzionanti su codice reale.
Su SWE-bench Verified il modello segna 75,0 punti, contro i 52,0 di Gemma4-31B e i 70,0 del predecessore Qwen3.5-35B-A3B. Invece su LiveCodeBench v6 raggiunge l’80,4, mentre su AIME 2026 arriva al 92,6.

Thinking preservation e multimodalità
Una novità rilevante rispetto alla versione precedente è la cosiddetta “thinking preservation”: il modello può conservare il contesto di ragionamento tra messaggi successivi, rendendo le sessioni di sviluppo iterativo più coerenti e meno ridondanti. Supporta sia la modalità “thinking”, con ragionamento esplicito prima della risposta, sia la modalità non-thinking, più veloce, selezionabile a seconda del caso d’uso.
La modalità non-thinking è indicata per task rapidi e iterazioni veloci; la modalità thinking entra in gioco su problemi di pianificazione multi-step o ragionamento articolato.
Qwen3.6-35B-A3B è anche un modello nativamente multimodale: integra un encoder visivo e ragiona su immagini con una profondità inattesa per un modello di questa taglia. Sui benchmark vision-language le sue prestazioni si avvicinano a quelle di Claude Sonnet 4.5, e su alcuni task specifici, come RefCOCO (92,0) e ODInW13 (50,8), le superano.
Qwen3.6-35B-A3B: usarlo in locale o via API
Per chi vuole provarlo senza accedere a server remoti, il percorso più diretto è scaricare la versione quantizzata tramite LM Studio. Il file pesa circa 21 GB e funziona bene su macchine con almeno 24 GB di RAM unificata, come i recenti Mac con chip M3 o M5. Noi lo abbiamo testato su un PC con una vecchia GPU GTX 1070 8 GB VRAM e 32 GB di RAM e si comporta decisamente bene per essere un modello locale; anzi, è superiore a qualsiasi alternativa basata sull’elaborazione in locale provata finora, Gemma 4 incluso.

Una volta avviato, il modello espone un’API locale compatibile con le specifiche OpenAI, il che significa che si può collegare direttamente a editor e tool già esistenti, senza riscrivere nulla. Per chi usa Claude Code, il team di Qwen ha documentato un’integrazione diretta tramite endpoint DashScope.
Per chi vuole usarlo in Visual Studio Code è sufficiente lanciare il modello su LM Studio e poi attivare la modalità server. Quando avvii il server, LM Studio espone un endpoint locale, di solito qualcosa come http://127.0.0.1:9500. A quel punto, di fatto, il modello è già “in ascolto” sul tuo PC. Su VS Code il lavoro si sposta sulle estensioni. Ne basta una che supporti provider compatibili con OpenAI (per esempio Roo Code, Kilo Code, Cline). Nelle impostazioni dell’estensione devi semplicemente inserire l’endpoint locale di LM Studio come base URL.
Qwen3.6-35B-A3B: da agente a strumento
Non tutti i casi d’uso sono uguali, e capire dove Qwen3.6-35B-A3B eccelle davvero aiuta a evitare aspettative mal riposte. Il modello è stato pensato esplicitamente per tre scenari principali:
- Coding agentivo su repository. Navigazione di codebase complesse, modifica coordinata di più file, generazione di patch.
- Assistenza multimodale nel frontend. Analisi di screenshot, generazione di componenti visivi, lavoro su codice SVG e layout.
- Sessioni di sviluppo lunghe e iterative. Grazie alla thinking preservation, il modello mantiene la coerenza del ragionamento anche in conversazioni prolungate.
Un aspetto da non sottovalutare è il profilo economico. Usarlo via API cloud su Alibaba Cloud costa nettamente meno rispetto ai modelli proprietari di fascia equivalente. Usarlo in locale, invece, ha un costo per token pari a zero, al prezzo di un po’ di hardware e qualche minuto di setup. Per team che gestiscono dati sensibili, questa seconda opzione offre anche un vantaggio in termini di privacy e controllo dei dati, eliminando la dipendenza da servizi terzi.
Conclusioni e implicazioni
Il cuore dell’innovazione di modelli come Qwen3.6-35B-A3B risiede nella sua progettazione Mixture-of-Experts (MoE), specificamente nella configurazione A3B che mira a bilanciare capacità elevata con un’attivazione inferiore per token.
La barriera d’ingresso è bassa: nel complesso, Qwen3.6-35B-A3B è uno dei modelli open-weight più interessanti attualmente disponibili, non solo sul piano dei benchmark, ma anche su quello dell’usabilità pratica. Non è un sostituto universale dei modelli proprietari, ma per chi cerca autonomia, costo per token azzerato e controllo locale dei dati, è un’opzione che merita attenzione seria. L’obiettivo finale è ridurre la dipendenza da assistenti proprietari, costruendo uno stack tecnologico più trasparente e controllabile.













