Nel panorama dell’AI open source, si affaccia con forza il modello AI GLM-4.5, insieme alla sua variante snella GLM-4.5-Air. Entrambi i modelli stanno attirando l’attenzione per un mix di prestazioni avanzate, efficienza computazionale e versatilità d’impiego. Sono sviluppati da Zhipu AI (Z.ai), una startup cinese sostenuta da investimenti locali e focalizzata sull’AI agentica. Questo posiziona GLM-4.5 accanto a nomi di rilievo come DeepSeek R1, Qwen 3 e Kimi-K2; non come outsider, ma come pari grado nella corsa ai modelli AI open source (e non solo) del 2025.

Il codice sorgente è pubblicato con licenza MIT su GitHub ed è disponibile su huggingface ; ciò ne facilita l’adozione e la personalizzazione. L’intento di Zhipu è quello di offrire un modello in grado di unificare capacità di reasoning profondo, coding e interazione con agenti digitali, mantenendo al contempo tempi di risposta competitivi. Un’alternativa, pensata per affrontare task complessi ma anche per rispondere in tempo reale, adattandosi a una varietà di scenari di utilizzo.
In modo simile al modello Qwen 3, entrambe le versioni sfruttano un’architettura Mixture-of-Experts (MoE) ottimizzata, affiancata da un contesto esteso fino a 128.000 token. Questo vuol dire che sebbene il modello completo vanta 355 miliardi di parametri totali, solo 32 miliardi vengono attivati per ogni inferenza, riducendo drasticamente i requisiti hardware. La versione Air si ferma a 106 miliardi di parametri, con 12 miliardi attivi, ed è pensata per scenari a bassa latenza e costi contenuti.
GLM-4.5 : architettura e modalità ibride
La struttura interna di GLM-4.5 è basata su una combinazione raffinata di componenti su più livelli con due modalità operative: Thinking Mode e Non-Thinking Mode. Nel primo caso, il modello si prende il tempo per analizzare il compito, attivando moduli e strumenti. Nella seconda modalità, risponde in modo diretto e immediato, utile per domande semplici o task frequenti. Il passaggio tra le modalità avviene dinamicamente, senza bisogno di intervento esterno.
Tra gli elementi chiave ci sono anche Grouped-Query Attention, MTP (Multi-Token Prediction) e un sistema di routing intelligente che seleziona l’“esperto” più adatto al compito. Questo rende GLM-4.5 più fluido nelle conversazioni lunghe e nelle interazioni complesse.
Benchmarks e prestazioni reali: dove brilla GLM-4.5
Nel confronto diretto con modelli noti come Claude 4 Sonnet, Qwen3 e DeepSeek R1, GLM-4.5 si colloca sorprendentemente ai vertici. Nei test di agentic reasoning, come BrowseComp e BFCL-v3, il tasso di successo nell’impiego corretto degli strumenti raggiunge il 90,6%. Questo dato supera quello delle soluzioni concorrenti Qwen3, DeepSeek R1, Kimi-K2 e Claude 4 Sonnet; evidenzia la competitività tecnica e l’efficacia ingegneristica del modello cinese.

Anche nei benchmark orientati al coding, GLM-4.5 mostra una performance convincente. Ottiene 64,2 punti su SWE-bench; totalizza 37,5 su Terminal-Bench, superando modelli affermati come GPT-4.1. Questi risultati indicano una competenza trasversale, utile sia nello sviluppo software sia nelle attività orientate agli agenti intelligenti.
Il modello si distingue anche nei test di natura matematica e logica:
- MATH 500: 98,2%
- AIME24: 91,0%
- GPQA: 79,1%
GLM-4.5 si adatta a differenti domini mantenendo un livello stabile di accuratezza. Anche la versione Air si difende con risultati più che dignitosi; si classifica sesta nella media complessiva di 12 benchmark, consolidando la validità del progetto anche nella sua forma più leggera.

Costi, efficienza e accessibilità: la carta vincente di Zhipu AI
Ma come è accaduto sempre nei modelli cinesi, uno dei motivi per cui GLM-4.5 suscita interesse è la sua efficienza economica; un elemento che lo distingue da molti concorrenti. Può essere eseguito su otto GPU H20; queste schede risultano più accessibili rispetto alle costose H100. Il costo operativo è contenuto: solo 11 centesimi per ogni milione di token in input; una cifra inferiore alla metà rispetto al rivale diretto DeepSeek R1; è anche molto più basso rispetto alle tariffe applicate da modelli commerciali come OpenAI GPT-4 o Claude 4, che superano ampiamente 3 dollari per milione di token input.
Anche i costi in output restano bassi, con una media di 28 centesimi per milione di token; questo lo rende appetibile per chi lavora con grandi volumi di dati. GLM-4.5 diventa così utilizzabile anche in ambienti con risorse moderate.
L’integrazione di Zhipu offre un’API ben documentata; consente una rapida adozione del modello all’interno di flussi di lavoro già esistenti. Il supporto nativo per strumenti di sviluppo come il popolare Claude Code o Roo Code amplia ulteriormente le potenzialità operative per il coding, permettendo a GLM-4.5 di inserirsi in ambienti professionali con efficienza e rapidità.
Zhipu GLM-4.5 è un reale contendente?
La varietà di funzionalità, l’equilibrio tra prestazioni e leggerezza e la licenza MIT rendono GLM-4.5 un attore concreto nello scenario AI del 2025. E’ un’alternativa flessibile a una gamma ampia di task: dal codice all’analisi, dall’interazione web alle chiamate di funzione.
Zhipu AI ha costruito una proposta credibile, in grado di affiancarsi anche a nomi come Gemini di Google, GPT-4 di OpenAI e Claude 4 di Anthropic. Rispetto a questi colossi, GLM-4.5 offre un vantaggio in termini di trasparenza, grazie al codice open-source; ma anche per quanto riguarda i costi operativi, sensibilmente inferiori.
Pur non essendo leader in tutti i benchmark, riesce comunque a posizionarsi come alternativa; un modello che può essere adottato con successo da startup, team di ricerca e aziende che cercano autonomia dalle soluzioni proprietarie. In un contesto dove i big si muovono con strategie chiuse e costi elevati, la proposta di Zhipu risulta una boccata d’aria fresca. ChatGPT 5 (atteso entro la fine del mese di agosto) dovrà veramente sorprendere per giustificarne i costi di utilizzo.