Il panorama dell’intelligenza artificiale continua a sorprendere con annunci sempre più interessanti. Il 22 dicembre 2025, Zhipu AI (conosciuta anche come Z.ai) ha presentato ufficialmente GLM-4.7, l’ultimo nato nella sua linea di modelli linguistici AI. L’azienda cinese sta cercando di affermarsi come protagonista nel settore dell’AI a livello globale. Il nuovo modello si posiziona come un fondamento avanzato pensato per sviluppatori, aziende e team di ricerca che lavorano su applicazioni di intelligenza artificiale su larga scala.


La caratteristica più distintiva di GLM-4.7 risiede nel suo focus primario sulla programmazione. A differenza dei modelli precedenti che puntavano su capacità generaliste, questa versione è stata ottimizzata specificamente per le attività di coding. L’azienda ha investito notevoli risorse per migliorare la capacità del modello di comprendere requisiti complessi, scomporre soluzioni e integrare stack tecnologici multipli. GLM-4.7 risulta al primo posto tra i modelli open-source nel benchmark nella WebDev leaderboard di LMArena.
Il lancio avviene in un momento strategico per Zhipu AI, che si prepara a un IPO nei primi mesi del 2026. GLM-4.7 potrebbe rappresentare l’ultimo aggiornamento significativo prima dell’uscita in borsa; un vero e proprio biglietto da visita tecnologico per impressionare investitori e analisti .
L’approccio open-source adottato da Zhipu AI rappresenta una scelta strategica significativa. Rendere GLM-4.7 disponibile come modello open-source non solo favorisce l’adozione da parte della comunità degli sviluppatori, ma crea anche un ecosistema di innovazione attorno alla tecnologia. I feedback iniziali degli utilizzatori evidenziano la coerenza degli output e la flessibilità delle opzioni di integrazione, con particolare apprezzamento per la struttura aperta delle API . La chat conversazionale di GLM-4.7 è già disponibile online.
GLM-4.7: prestazioni nei Benchmark


Quando si parla di modelli di intelligenza artificiale, i benchmark rappresentano il metro di misura principale per valutare le capacità reali. GLM-4.7 ha dimostrato prestazioni SOTA in diversi test standardizzati; risultati che lo posizionano tra i migliori modelli al mondo. In particolare, sul LiveCodeBench V6 il modello ha ottenuto un punteggio di 84.8, superando Claude 4.5 Sonnet di Anthropic, considerato fino a poco tempo uno dei riferimenti per la programmazione insieme al fratello maggiore Opus 4.5.
I miglioramenti rispetto alla versione precedente, GLM-4.6, sono sostanziali e misurabili. Sul benchmark SWE-bench Verified, che valuta la capacità di risolvere problemi di programmazione del mondo reale, GLM-4.7 ha raggiunto il 73.8%, registrando un miglioramento del 5.8% rispetto al suo predecessore. Ancora più importante è il risultato su SWE-bench Multilingual, dove l’incremento sale al 12.9%, raggiungendo il 66.7%. Questi numeri dimostrano come il modello abbia migliorato in modo trasversale le sue capacità di coding in più linguaggi e scenari.
Sul fronte della matematica e del ragionamento complesso, i progressi sono altrettanto evidenti. Nel benchmark AIME 2025, che presenta problemi matematici di alto livello, GLM-4.7 ha superato sia Claude 4.5 Sonnet che GPT-5.1. Ancora più significativo è il risultato sul Human Last Exam (HLE), dove il modello ha ottenuto il 42%, un miglioramento del 38% rispetto a GLM-4.6 e avvicinandosi notevolmente alle prestazioni di GPT-5.1. Questo indica che il modello è in grado di affrontare compiti che richiedono ragionamento a più passi con una precisione crescente .


Le prime reazioni della comunità online mostrano un misto di entusiasmo e scetticismo. I benchmark ufficiali non sempre riflettono le prestazioni nel mondo reale. Altri pensano che i benchmarck siano gonfiati in vista dell’IPO a Hong Kong per gennaio. Tuttavia, molti riconoscono che i progressi da GLM-4.6 a GLM-4.7 sono tangibili e che la direzione intrapresa sembra promettente .
GLM-4.7: tre modalità di thinking
Le caratteristiche tecniche di GLM-4.7 evidenziano una finestra di contesto estesa a 200.000 token; permette di gestire conversazioni lunghe e complesse senza perdere il filo del discorso. La velocità di generazione è superiore a 55 token al secondo, un dato che garantisce flussi di lavoro piuttosto rapidi.
Dal punto di vista architetturale, GLM-4.7 introduce progressi interessanti rispetto al predecessore. Il thinking interlacciato (Interleaved Thinking), già presente in GLM-4.5, viene affinato permettendo al modello di ragionare tra chiamate agli strumenti e dopo aver ricevuto i risultati; questo approccio distribuito dovrebbe migliorare la conformità alle istruzioni e la qualità dell’output.
L’innovazione principale è il preserved thinking; una modalità che mantiene tutti i blocchi di ragionamento attraverso conversazioni multi-turno, riutilizzando inferenze precedenti invece di ricominciare da zero. Teoricamente, questo riduce perdite informative e incoerenze, rendendo il modello più adatto a task complessi di lunga durata e risparmiando token nelle applicazioni reali.
Infine il turn-level thinking aggiunge flessibilità permettendo di attivare o disattivare il ragionamento profondo per ogni singolo turno di conversazione; domande fattuali semplici possono ottenere risposte rapide senza overhead computazionale, mentre task complessi beneficiano dell’elaborazione intensiva. Questa architettura modulare sembra ben pensata per scenari agentivi dove è cruciale bilanciare velocità ed accuratezza dinamicamente. Resta da verificare quanto queste capacità teoriche si traducano in vantaggi concreti nell’esperienza d’uso quotidiana.
Qualità frontend e creatività
Oltre al coding, Zhipu sottolinea miglioramenti nella generazione di interfacce visive e contenuti creativi. GLM-4.7 produrrebbe pagine web più pulite con gerarchie componenti più chiare, PPT con titoli ben strutturati ed elementi proporzionati correttamente, e asset 3D di qualità superiore. La documentazione enfatizza una migliore comprensione delle specifiche UI e scelte estetiche più moderne per layout, armonia cromatica e stili componenti; questo dovrebbe ridurre il tempo dedicato al fine-tuning manuale, rendendolo adatto a piattaforme low-code e tool di generazione frontend assistita da AI.


Questi miglioramenti qualitativi, se confermati, rappresentano un’area dove i benchmark numerici catturano meno sfumature e dove l’esperienza soggettiva conta di più. L’implementazione pratica dirà se queste promesse si materializzano consistentemente.
Prezzi e accessibilità
Un aspetto particolarmente interessante di GLM-4.7 riguarda la strategia di prezzo adottata da Zhipu AI. Il modello è disponibile a partire da soli 3 dollari al mese nel piano di abbonamento di Z.ai dedicato alla programmazione AI. Questo posizionamento lo rende estremamente competitivo rispetto ai modelli concorrenti come Claude Pro.
La disponibilità di GLM-4.7 è garantita attraverso API, e permette sia l’elaborazione in tempo reale che in batch. Il modello supporta output strutturati in formati come JSON, facilitando l’integrazione con sistemi aziendali esistenti. La finestra di contesto di 200.000 token (con un massimo di output di 128.000 token) e una velocità di generazione superiore a 55 token al secondo lo rendono adatto anche per applicazioni enterprise che richiedono elaborate analisi di documenti lunghi .
L’API di GLM-4.7 ha un prezzo di 0,40 $/milione di token in input e 1.50 $/milione in output, decisamentre più economico rispetto a GPT-5.2 (1,75 $ / 14.00 $) e Claude Opus 4.5 (3,00 $ / 15.00 $).
| Modello | Prezzo Input (per 1M token) | Prezzo Output (per 1M token) |
|---|---|---|
| GLM-4.7 | $0.40 | $1.50 |
| GPT-5.2 Pro | $21.00 | $168.00 |
| GPT-5.2 | $1.75 | $14.00 |
| GPT-5 Pro | $15.00 | $120.00 |
| GPT-5.1 | $1.25 | $10.00 |
| DeepSeek-V3.2 | $0.07 | $0.42 |
| Gemini 3 Pro (Google) | $2.00 | $12.00 |
| Claude Opus 4.5 (Anthropic) | $5.00 | $25.00 |
| Claude Sonnet 4.5 (Anthropic) | $3.00 | $15.00 |
| Grok 4.1 Fast (xAI) | $0.20 | $0.50 |
| Grok 4 (xAI) | $3.00 | $15.00 |
Il futuro dell’AI Made in China
Zhipu AI sta accelerando i propri sforzi per raggiungere e superare i leader occidentali come OpenAI, Anthropic, Google e X.ai. La valutazione comparativa posiziona il modello come competitivo con GPT-5.2 Codex e Opus 4.5, e addirittura superiore a Sonnet 4.5 per determinati scenari di coding agentivo. La strategia dell’azienda sembra puntare su un ciclo di rilasci frequenti, con miglioramenti incrementali che si sommano rapidamente.
Ora la vera sfida rimane la dimostrazione di affidabilità negli scenari di produzione, al di là dei promettenti numeri dei test. Il tempo dirà se GLM-4.7 potrà consolidare la propria posizione tra i leader del settore o se dovrà ulteriormente affinare le proprie capacità. Quello che è certo è che il panorama dell’AI continua a evolversi rapidamente, con modelli sempre più capaci che diventano accessibili a un pubblico sempre più ampio.










