Il panorama dell’intelligenza artificiale generativa continua a muoversi rapidamente, con nuovi protagonisti che emergono dalle scene tecnologiche di diverse aree geografiche. In questo contesto dinamico, la cinese Z.ai (precedentemente conosciuta come Zhipu) ha lanciato poche ore fa GLM-4.6; un modello linguistico open-source che punta a competere direttamente con i giganti occidentali nel settore del coding assistito dall’IA. Inoltre posiziona GLM-4.6 accanto a nomi di rilievo come DeepSeek R1, Qwen 3 e Kimi-K2; non come outsider, ma come pari grado nella corsa ai modelli AI open source (e non solo) del 2025.


Questo modello si presenta con specifiche tecniche avanzate; promette prestazioni comparabili a quelle di Claude Sonnet 4 di Anthropic e GPT-5 di OpenAI, ma a costi decisamente inferiori.
Questo modello, successore diretto di GLM-4.5, introduce miglioramenti sostanziali in molteplici aree; dalla capacità di coding alla gestione di contesti estesi. Con una finestra di contesto espansa a 200.000 token, rispetto ai 128.000 della versione precedente, GLM-4.6 può ora gestire progetti e documenti più ampi. Può inoltre mantenere coerenza in operazioni multi-file che richiedono memoria estesa.
Come il modello precedente GLM-4.5, il modello conta 355 miliardi di parametri totali con 32 miliardi di parametri attivati; una configurazione che bilancia potenza computazionale ed efficienza operativa. Secondo i test condotti da Z.ai su 74 compiti di programmazione reali nell’ambiente Claude Code, GLM-4.6 ha superato Claude Sonnet 4 e altri modelli cinesi come DeepSeek, dimostrando capacità sorprendenti in diversi scenari.
La sua architettura ottimizzata permette un consumo di token inferiore del 30% rispetto a GLM-4.5, rendendolo ancora più economico. Queste caratteristiche lo rendono particolarmente adatto per sviluppatori e aziende che cercano soluzioni AI efficienti ed economiche per automatizzare e migliorare i propri flussi di lavoro di programmazione.
Capacità di coding al vertice della categoria
GLM-4.6 si distingue per le sue capacità di codifica, che Z.ai definisce come il suo punto di forza principale. Nei benchmark standard come LiveCodeBench v6, il modello ha ottenuto un punteggio di 82.8; un notevole miglioramento rispetto ai 63.3 di GLM-4.5; molto vicino al punteggio di 84.5 di Claude Sonnet 4. Su SWE-bench Verified, GLM-4.6 ha raggiunto 68.0 punti; supera sia la versione precedente (64.2) sia Claude Sonnet 4 (67.8). Rimane leggermente dietro al nuovo Claude Sonnet 4.5 che ottiene 77.2.


Particolarmente degno di nota è anche il risultato su BrowseComp; GLM-4.6 ha quasi raddoppiato le prestazioni della versione precedente (45.1 contro 26.4). Questi numeri, però, raccontano solo parte della storia; ciò che distingue veramente GLM-4.6 è la sua performance in scenari di programmazione reali. Il modello è stato testato su CC-Bench-V1.1, un benchmark che simula compiti di sviluppo multi-turno all’interno di container Docker isolati; ha ottenuto un tasso di vittoria del 48.6% nei confronti diretti con Claude Sonnet 4, dimostrando una quasi parità prestazionale.
I compiti includevano sviluppo frontend, creazione di strumenti, analisi dati, test e progettazione di algoritmi; attività che gli sviluppatori affiderebbero effettivamente a un assistente AI.
GLM-4.6: efficienza e ottimizzazione
L’efficienza computazionale di GLM-4.6 costituisce uno dei suoi vantaggi competitivi più marcati. Il modello utilizza in media circa 651.525 token per compito, rispetto agli 800.000-950.000 richiesti da altri modelli di categoria simile.
Questa ottimizzazione non si traduce solo in velocità di elaborazione superiori, ma anche in costi operativi notevolmente inferiori. Z.ai ha implementato una strategia di prezzo aggressiva (uso API); GLM-4.6 costa $0.60 per milione di token in input e $2.20 per milione di token in output. Ovvero una frazione rispetto ai $3/$15 richiesti da Claude Sonnet 4.5 o ai $1.25/$10 richiesti da GPT-5 di OpenAI.
Questa differenza di costo diventa particolarmente rilevante per progetti su larga scala o per startup e sviluppatori indipendenti con budget limitati. Il GLM Coding Plan è disponibile a soli $3 al mese; offre accesso al modello con un quantitativo di utilizzo triplo rispetto al piano Claude Max. Una soluzione estremamente conveniente per lo sviluppo.
L’efficienza di GLM-4.6 si estende anche alla sua implementazione hardware. Il modello è stato ottimizzato per funzionare su chip cinesi come quelli prodotti da Cambricon e Moore Threads, utilizzando una quantizzazione mista FP8+Int4 che mantiene la precisione riducendo drasticamente i costi di inferenza. Questa adattabilità a diverse architetture hardware amplia significativamente le possibili applicazioni del modello; specialmente in contesti dove l’infrastruttura computazionale potrebbe essere limitata o specializzata.
GLM-4.6: capacità multidimensionali, non solo coding
Sebbene GLM-4.6 eccella particolarmente nelle attività di codifica, le sue capacità si estendono oltre questo ambito specifico. Il modello mostra miglioramenti sostanziali nel ragionamento logico, come dimostrato dal suo punteggio di 93.9 su AIME 25 (un test di ragionamento matematico), che sale a 98.6 quando viene abilitato l’utilizzo di strumenti.
Questo risultato lo posiziona in modo competitivo rispetto a Claude Sonnet 4 (87.0) e solo leggermente dietro a Claude Sonnet 4.5 (74.3). La capacità di combinare ragionamento con utilizzo attivo di strumenti durante l’inferenza è particolarmente preziosa per applicazioni agentic, dove il modello deve concatenare ricerche, recuperi o calcoli senza sprecare contesto o token.


GLM-4.6 mostra anche prestazioni superiori nella ricerca e nell’utilizzo di agenti basati su ricerca. Queste capacità lo rendono adatto per compiti complessi che richiedono pianificazione autonoma e invocazione di strumenti, eccellendo nella scomposizione dei compiti, nella collaborazione tra strumenti diversi e negli aggiustamenti dinamici.
Un’altra area di miglioramento riguarda la qualità della scrittura: GLM-4.6 genera testi con stile e leggibilità più naturali. Questo aspetto è fondamentale per sessioni di ricerca, dove il tono e la leggibilità influenzano significativamente l’esperienza complessiva. Il modello ha inoltre migliorato le sue capacità di traduzione multilingua, specialmente per lingue meno comuni rendendolo più adatto per applicazioni globali e contenuti localizzati.
Integrazione e accessibilità: chatbot completamente gratutio
Z.ai ha adottato un approccio particolarmente aperto per quanto riguarda l’accessibilità e l’integrazione di GLM-4.6. Il modello è già disponibile attraverso diverse piattaforme, tra cui Z.ai, OpenRouter, huggingface e ModelScope, con documentazione tecnica completa accessibile su docs.z.ai.
Questa distribuzione multi-canale garantisce che gli sviluppatori possano accedere al modello attraverso l’infrastruttura che preferiscono, senza essere vincolati a un ecosistema chiuso. L’integrazione con strumenti di codifica popolari è un altro punto di forza: GLM-4.6 supporta Claude Code, Roo Code, Kilo Code, Cline e molti altri strumenti di programmazione principali ( a questo link trovi una lista aggiornata).
Z.ai fornisce API complete con esempi di codice che dimostrano come implementare il modello in varie applicazioni. L’API supporta funzionalità avanzate come il pensiero guidato (“thinking”) e lo streaming. Un aspetto degno di nota è la decisione di Z.ai di open-sourcing il modello sotto licenza MIT; una strategia che favorisce la trasparenza e permette alla comunità di sviluppatori di esaminare, modificare e migliorare il codice. Come noto, questo approccio contrasta con quello di molti concorrenti occidentali che mantengono i loro modelli proprietari.
Per il pubblico non professionale, ricordiamo che è disponibile anche un chatbot completamente gratuito (con interfaccia in inglese o cinese) che è una valida alternativa ai chatbot a pagamento (o con limitazioni di uso) di GPT-5 di OpenAI, Claude 4.5 di Anthropic, Grok 4 di xAI e Gemini di Google.
GLM-4.6: conclusione
Con prestazioni quasi paragonabili a modelli leader come Claude Sonnet 4 e GPT-5 ma a una frazione del costo, GLM-4.6 facilita l’accesso a strumenti di programmazione avanzati precedentemente disponibili solo per aziende con budget sostanziosi. Questo modello introduce anche un nuovo equilibrio tra prestazioni e accessibilità che potrebbe ridefinire le aspettative del mercato.
Anche per le aziende più grandi, il modello offre un’interessante proposta di valore; può essere utilizzato per compiti di routine risparmiando sui costi, mentre i modelli premium potrebbero essere riservati per le sfide più complesse.
Se sei uno sviluppatore alle prime armi o un team enterprise che vuole ridurre i costi AWS, provare GLM-4.6 costa meno di un caffè. Scaricalo, testalo sul tuo progetto reale e confronta il tempo che risparmi; potresti scoprire che il modello cinese è tutto ciò di cui hai bisogno per chiudere le issue su GitHub prima di cena !










