Moonshot AI, il laboratorio di intelligenza artificiale con sede a Pechino, ha rilasciato il Kimi K2.6, la versione più recente della famiglia Kimi K2, una serie di modelli che ha guadagnato credibilità a ritmo sostenuto sin dal debutto nel luglio 2025. K2.6 si posiziona esplicitamente come modello specializzato per la programmazione e per il lavoro con agenti autonomi, una scelta di campo netta rispetto al predecessore K2.5, che puntava invece a una copertura più generalista con supporto multimodale.
Moonshot ha pubblicato i pesi del modello come open source, consentendo a sviluppatori e aziende di studiarne l’architettura e l’integrazione nei propri sistemi. Moonshot ha documentato la costruzione da zero di un compilatore completo per il linguaggio SysY in sole 10 ore e superando 140 test funzionali; un lavoro che secondo Moonshot avrebbe richiesto un team di quattro ingegneri e almeno due mesi.
In un altro test pratico reale, Kimi K2.6 ha autonomamente ristrutturato exchange-core, un motore di matching finanziario open source con 8 anni di storia, in 13 ore, modificando oltre 4.000 righe di codice e ottenendo un aumento del throughput medio del 185%.
K2.6 è rivolto principalmente a chi lavora su codebase di grandi dimensioni, ai team che costruiscono pipeline di agenti autonomi e alle startup che vogliono mantenere sotto controllo i costi dell’infrastruttura AI, senza rinunciare a prestazioni competitive.
Un trilione di parametri, ma con il costo computazionale di 32 miliardi
L’architettura di Kimi K2.6 riprende quella consolidata della serie K2: un modello Mixture-of-Experts (MoE) da un trilione di parametri totali, di cui soltanto 32 miliardi vengono attivati a ogni inferenza. Questo significa che il modello ragiona attingendo da una base di conoscenza enorme, ma il costo computazionale effettivo è paragonabile a quello di un modello molto più leggero. Ed è proprio questo il motivo per cui Moonshot riesce a mantenerlo economicamente competitivo rispetto ai concorrenti proprietari.
La finestra di contesto è stata portata a 256.000 token, il doppio rispetto alla versione K2 originale, con una compressione automatica del contesto che preserva le informazioni rilevanti nelle sessioni più lunghe anziché troncare semplicemente i turni precedenti. La compressione permette di aumentare le richieste e ritardare il limite della finestra di contesto.
Sul fronte agentico, K2.6 introduce una versione potenziata degli Agent Swarm: l’architettura ora coordina fino a 300 sotto-agenti che eseguono 4.000 passi in parallelo, rispetto ai 100 agenti e 1.500 passi di K2.5.
Ogni agente può essere eterogeneo, eseguire modelli diversi, disporre di strumenti propri e di memoria persistente, mentre Kimi K2.6 funge da coordinatore centrale, riassegnando dinamicamente i task in caso di errore. Da segnalare anche la compatibilità nativa con l’API di Anthropic, che permette di integrare K2.6 in pipeline esistenti basate su Claude.
Dove Kimi K2.6 tiene il passo e dove ancora insegue
I dati pubblicati da Moonshot mostrano un modello che si colloca stabilmente nella fascia alta del panorama attuale, pur non dominando in tutti i fronti. Su SWE-Bench Verified, lo standard di riferimento per la risoluzione autonoma di bug reali, K2.6 ottiene l’80,2%, sostanzialmente allineato a Claude Opus 4.6 (80,8%) e a Gemini 3.1 Pro (80,6%), e nettamente sopra il predecessore K2.5 (76,8%).

Sul bench SWE-Bench Pro, una variante più esigente, Kimi K2.6 supera entrambi i rivali con il 58,6%, contro il 57,7% di GPT-5.4 e il 53,4% di Claude Opus 4.6. Su LiveCodeBench v6, che misura la capacità di generare codice corretto su problemi competitivi, K2.6 raggiunge l’89,6% contro l’88,8% di Claude. Particolarmente rilevante è il punteggio su DeepSearchQA: K2.6 ottiene 92,5 (f1-score), nettamente superiore a GPT-5.4 (78,6) e anche a Claude Opus 4.6 (91,3).
Dove il modello rimane in secondo piano è sui benchmark di ragionamento puro. HLE-Full senza strumenti si ferma al 34,7% contro il 40% di Claude, e GPQA Diamond al 90,5% contro il 94,3% di Gemini 3.1. Ma il distacco è molto marginale, e non dimentichiamo che parliamo di un modello open source scaricabile ed eseguibile in locale con l’hardware idoneo.
Il vantaggio economico che cambia le carte in tavola
Il confronto economico tra Kimi K2.6 e i modelli proprietari è l’aspetto che più colpisce chi deve valutare una migrazione o un’integrazione in stack esistenti. Tramite l’API sulla piattaforma Moonshot, K2.6 costa circa $0,60 per milione di token in input e $2,50 per milione in output, rispetto ai $5 in input e $25 in output di Claude Opus 4.6 e il nuovo Opus 4.7, con tariffe simili per GPT-5.4. La differenza di prezzo è netta: circa l’88% in meno sull’input e il 90% in meno sull’output.
| Modello | Input (per 1M token) | Output (per 1M token) |
|---|---|---|
| DeepSeek-V3.2 | $0.07 | $0.42 |
| Grok 4.1 Fast (xAI) | $0.20 | $0.50 |
| MiniMax M2.5 | $0.15 | $1.20 |
| MiniMax M2.5-Lightning | $0.30 | $2.40 |
| Qwen3.6 Plus | $0.32 | $1.95 |
| Kimi K2.6 | $0.60 | $2.80 |
| GLM-5.1 (Z.ai) | $0.95 | $3.15 |
| Grok 4.2 (xAI) | $2.00 | $6.00 |
| Gemini 3.1 Pro (Google) | $2.00 | $12.00 |
| GPT-5.4 | $2.50 | $15.00 |
| Claude Sonnet 4.6 (Anthropic) | $3.00 | $15.00 |
| Claude Opus 4.7 (Anthropic) | $5.00 | $25.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
Per chi sviluppa in modo individuale, Moonshot offre anche piani in abbonamento:
- Piano Moderato ($19/mese). Include l’accesso a Kimi Code CLI con limiti generosi per la maggior parte dei carichi di lavoro quotidiani.
- Piano Allegretto ($39/mese). Pensato per chi lavora su progetti intensivi; dove raramente si raggiunge il tetto settimanale.
A titolo di confronto, Claude Code Max parte da oltre $100 al mese. I pesi del modello sono distribuiti con una licenza open source a uso commerciale, con una clausola che richiede la disclosure del modello sottostante superata una certa soglia di fatturato.
Kimi K2.6 è accessibile tramite Kimi.com, l’app Kimi, l’API e Kimi Code, OpenRouter ecc. tutti disponibili da subito.
A chi serve davvero Kimi K2.6
Kimi K2.6 è un modello che riesce a fare piuttosto che conversare. Funziona meglio quando gli viene affidata un’esecuzione strutturata, pipeline di agenti, flussi di modifica multi-file, sessioni di coding su codebase complesse, e restituisce risultati convincenti proprio nelle situazioni in cui altri modelli tendono a rallentare o richiedono supervisione continua.
Se scrivi codice ogni giorno, gestisci repository di grandi dimensioni o vuoi costruire agenti autonomi senza spendere cifre elevate in licenze API, questo modello merita un posto nel tuo stack.
Si può optare anche per un uso ibrido: lasciare che un modello come Claude gestisca la fase di pianificazione e ragionamento architetturale, e delegare a Kimi K2.6 l’implementazione, la navigazione della codebase e i cicli iterativi. Il livello qualitativo resta alto, ma il costo token scende in modo considerevole. Per le startup in crescita e per chi costruisce prodotti basati su agenti, Kimi K2.6 è oggi una delle opzioni open source più solide sul mercato.













