Il team Qwen di Alibaba ha presentato Qwen3.7-Max il 20 maggio 2026 all’Alibaba Cloud Summit di Hangzhou, posizionandolo come il proprio modello più avanzato per l’era degli agenti AI. Con Qwen3.7-Max, la finestra di contesto sale a 1 milione di token (rispetto ai 256k dei modelli precedenti come Qwen3.6 Max): l’approccio diventa completamente proprietario (modello chiuso) e per il momento accessibile solo via API.
Il modello si propone di fungere da motore per flussi di lavoro autonomi complessi, tra cui scrittura e debug del codice, automazione di attività d’ufficio, orchestrazione multi-agente e, soprattutto, esecuzione continuata su catene di centinaia o migliaia di passaggi senza supervisione umana. Si tratta di un’AI pensata non per rispondere a domande singole, ma per portare a termine progetti interi.
Il pubblico ideale comprende sviluppatori software, team di ingegneria e aziende che necessitano di automatizzare flussi di lavoro.
Un’architettura addestrata per lavori continuativi
Quello che distingue Qwen3.7-Max dai modelli tradizionali non è solo la dimensione della finestra di contesto, ma il modo in cui è stato addestrato a gestire compiti prolungati. Alibaba ha adottato un approccio che chiama environment scaling: invece di esporre il modello a una grande quantità di testi, lo ha allenato su un vasto array di ambienti agentici, simulando scenari reali in cui l’AI deve prendere decisioni sequenziali, ricevere feedback e correggere la propria rotta.
Il modello usa un meccanismo di ragionamento a catena di pensiero (chain-of-thought): prima di produrre una risposta, elabora internamente una sequenza di passi di pianificazione e verifica. Questo comporta un consumo maggiore di token e una latenza più alta, ma porta a risultati sensibilmente migliori su compiti matematici, di coding e di pianificazione multi-step.
Qwen3.7-Max è un modello solo testo. Per le attività multimodali Alibaba ha rilasciato in parallelo Qwen3.7-Plus-Preview, che gestisce input visivi.
Qwen3.7-Max: cosa dicono i benchmark
Sul fronte delle prestazioni, i risultati pubblicati da Alibaba e da piattaforme di valutazione indipendenti offrono un quadro interessante. Sull’Artificial Analysis Intelligence Index, Qwen3.7-Max ha ottenuto un punteggio di 56.6, collocandosi al quinto posto tra i modelli frontier e al primo tra quelli cinesi. Il miglioramento rispetto al predecessore Qwen3.6 Max Preview (51.8) è di 4.8 punti, con i guadagni più marcati concentrati nel ragionamento scientifico, nel coding e nelle capacità agentiche. GPT-5.5 (60.2), Claude Opus 4.7 (57.3), Gemini 3.1 Pro Preview (57.2) rimangono davanti.

Sul benchmark Apex Math Reasoning, il modello segna 44.5, contro il 34.5 di Claude Opus-4.6 Max e il 38.3 di DeepSeek V4-Pro Max, un vantaggio tutt’altro che trascurabile.
Su AA-Omniscience, benchmark che misura il recupero di conoscenza fattuale, l’accuratezza complessiva (o il tasso di risposta) del modello è calata di 7.6 punti percentuali rispetto al predecessore. Il modello risponde infatti a meno domande, preferendo astenersi piuttosto che rischiare un’allucinazione: questa prudenza ha ridotto il tasso di allucinazione di ben 21 punti, aumentandone la precisione effettiva sulle risposte fornite.
Prezzi, accesso e posizionamento competitivo
Qwen3.7-Max è disponibile tramite Alibaba Cloud Model Studio e OpenRouter, con tariffazione API a $2,50 per milione di token in input e $7,50 per milione di token in output.
| Modello | Input (per 1M token) | Output (per 1M token) |
|---|---|---|
| DeepSeek-V4 Flash | $0.07 | $0.42 |
| MiniMax M2.5 | $0.15 | $1.20 |
| Qwen3.6 Plus | $0.32 | $1.95 |
| DeepSeek-V4 Pro | $0.435 | $0.87 |
| Kimi K2.6 | $0.60 | $2.80 |
| GLM-5.1 (Z.ai) | $0.95 | $3.15 |
| Grok 4.3 (xAI) | $1.25 | $2.50 |
| Gemini 3.5 Flash | $1.50 | $9.00 |
| Gemini 3.1 Pro (Google) | $2.00 | $12.00 |
| Qwen3.7 Max | $2.50 | $7.50 |
| GPT-5.4 | $2.50 | $15.00 |
| Claude Sonnet 4.6 (Anthropic) | $3.00 | $15.00 |
| Claude Opus 4.7 (Anthropic) | $5.00 | $25.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
| GPT-5.5 | $5.00 | $30.00 |
| GPT-5.5 Pro | $30.00 | $180.00 |
Questo posiziona il modello in una fascia intermedia, pur risultando comunque più economico dei principali competitor occidentali, tra cui GPT-5.5 di OpenAI e Claude Opus 4.7 di Anthropic. Rispetto al nuovo Gemini 3.5 Flash di Google, la differenza è minima.
Per chi già lavora con Claude Code, OpenClaw o Hermes Agent, l’integrazione è diretta: Qwen3.7-Max supporta nativamente il protocollo Anthropic API, permettendo di sostituire il modello sottostante con una semplice modifica delle variabili d’ambiente, senza riscrivere l’infrastruttura esistente.
La scelta di mantenere i pesi chiusi segna una discontinuità rispetto alla tradizione open-source di Qwen (le versioni 2.5 e 3.6 erano disponibili pubblicamente).
Un’alternativa ai modelli occidentali
Qwen3.7-Max è un modello valido per chi deve costruire agenti AI capaci di sostenere flussi di lavoro lunghi e complessi, tra cui ottimizzazione di codice, automazione di processi e orchestrazione multi-step. La combinazione di una finestra di contesto da 1 milione di token, una logica di ragionamento a catena di pensiero e la compatibilità nativa con i principali framework agentici lo rende uno strumento concretamente utilizzabile.
Per i team di sviluppo alla ricerca di un’alternativa competitiva ai modelli Anthropic e OpenAI su task agentici intensivi, Qwen3.7-Max merita un test. Per chi ha esigenze di sovranità dei dati o necessita di personalizzazione profonda del modello, Qwen3.7 non è più una soluzione come lo erano i modelli precedenti.













