MiniMax è una startup cinese con una storia recente ma intensa: ha costruito la propria reputazione sui modelli open source della serie M2, distribuiti con licenze aperte che ne hanno favorito l’adozione globale. Con Minimax M2.7, rilasciato poche ore fa, l’azienda cambia rotta e il modello diventa proprietario. Inoltre, questo è il primo modello a partecipare attivamente al proprio sviluppo: l’LLM non si limita a ricevere istruzioni e produrre output, ma contribuisce direttamente al proprio miglioramento.
Rispetto al predecessore M2.5, celebrato per la padronanza del codice multilingua, M2.7 sposta il focus verso l’ingegneria reale: è progettato specificamente per alimentare agenti AI e fungere da backend per strumenti di sviluppo come Claude Code, Kilo Code e assistenti AI come OpenClaw. MiniMax M2.7 è un cambio di paradigma nel modo in cui viene concepito l’utilizzo del modello, meno come assistente che risponde a domande, più come operatore che gestisce workflow.
Il pubblico principale è quello dei team di sviluppo software, dei ricercatori in machine learning e delle organizzazioni che vogliono integrare un agente AI nei propri processi operativi. Tra i punti di forza emergono la collaborazione nativa tra agenti multipli, benchmark competitivi nell’ingegneria software, un tasso di allucinazioni contenuto e un prezzo al token tra i più bassi dell’attuale panorama frontier.
MiniMax M2.7: auto-miglioramento e agent harness
Il concetto centrale di MiniMax M2.7 è quello di “Evolution LLM”, ovvero un modello che osserva le proprie performance e le migliora in modo iterativo, trasferendo parte del ciclo di affinamento dall’esterno, cioè dai ricercatori umani, all’interno del sistema stesso.
Per abilitare questo meccanismo, MiniMax ha costruito attorno al modello un ambiente chiamato agent harness, che fornisce accesso a memoria persistente, strumenti e workflow strutturati. All’interno di questo contesto, M2.7 esegue un ciclo continuo che si articola in quattro fasi:
- Analisi degli errori. Il modello esamina i propri fallimenti nel task precedente e ne individua i pattern ricorrenti.
- Pianificazione delle modifiche. Identifica i cambiamenti da apportare al codice o al workflow sulla base dei dati raccolti.
- Esecuzione e valutazione. Applica le modifiche, esegue i test e registra i risultati.
- Decisione finale. Confronta i risultati e decide se mantenere o annullare le modifiche.
In un test interno, il modello ha percorso oltre 100 cicli di questo processo in completa autonomia, ottenendo un miglioramento del 30% sulle valutazioni interne. È la prima dimostrazione di un sistema che affina se stesso senza intervento umano.
Un’altra caratteristica rilevante è la funzionalità Agent Teams, ovvero la collaborazione nativa tra più istanze con ruoli distinti. Una scrive il codice, un’altra lo revisiona, una terza lo testa e debugga.
MiniMax M2.7: dove brilla e dove vale la pena fare attenzione
Nei test di ingegneria del software, M2.7 ottiene buoni risultati. Sul benchmark SWE-Pro, che copre più linguaggi di programmazione, raggiunge il 56,22% di accuratezza, al pari di GPT-5.3-Codex e vicino al livello di Claude Opus 4.6. Sul benchmark VIBE-Pro, che misura la consegna end-to-end di interi progetti (Web, Android, iOS, simulazione), il punteggio è del 55,6%, di fatto alla pari con Opus 4.6.

Nelle competizioni di machine learning autonomo su MLE-Bench Lite, MiniMax M2.7 ha raggiunto un medal rate medio del 66,6% su tre sessioni da 24 ore ciascuna, posizionandosi dopo Claude Opus 4.6 (75,7%) e GPT-5.4 (71,2%), e con un risultato equivalente a Gemini 3.1 Pro. Sul fronte delle allucinazioni, il tasso dichiarato del 34% risulta più basso di quello di Claude Sonnet 4.6 (46%) e Gemini 3.1 Pro Preview (50%), un dato rilevante per chi costruisce pipeline dove conta l’accuratezza.
Va segnalato, tuttavia, che non tutti i benchmark mostrano un miglioramento rispetto al predecessore. Su BridgeBench, test dedicato al vibe coding, M2.5 si classificava 12°, mentre M2.7 scende al 19° posto. Se la tua passione è il vibe coding, è meglio orientarti verso altri modelli come il nuovo Grok 4.20 Multi-Agent, GPT 5.4, Claude Sonnet 4.6 e se vuoi risparmiare sui token, Qwen3.5 Plus.
Prezzi, disponibilità e confronto con la concorrenza
MiniMax M2.7 è ora un modello proprietario, con i pesi non pubblici, accessibile tramite MiniMax Agent (agent.minimax.io) e le API MiniMax (platform.minimax.io). La versione web offre anche un generoso piano gratuito.
Per l’integrazione in tool di sviluppo, MiniMax ha pubblicato documentazione ufficiale per oltre 11 piattaforme, tra cui Claude Code, Cursor, Trae, Zed, Kilo Code e Cline. Il modello è già disponibile su OpenRouter.
Chi usa l’SDK Anthropic può puntare direttamente a M2.7 modificando il parametro ANTHROPIC_BASE_URL verso l’endpoint MiniMax, senza dover riscrivere il codice esistente.
Sul piano commerciale, MiniMax M2.7 mantiene la politica di pricing aggressiva già adottata con M2.5, posizionandosi come uno dei modelli frontier più accessibili al mondo: 0.30 dollari per un milione di token in input e 1.20 dollari per un milione in output. Anche se il costo in input è raddoppiato (da 0.15 a 0.30), i prezzi rimangono molto competitivi.
| Modello | Input (per 1M token) | Output (per 1M token) |
|---|---|---|
| DeepSeek-V3.2 | $0.07 | $0.42 |
| MiniMax M2.5 | $0.15 | $1.20 |
| Grok 4.1 Fast | $0.20 | $0.50 |
| MiniMax M2.7 | $0.30 | $1.20 |
| Qwen3.5 Plus | $0.40 | $2.40 |
| Qwen3.5 397B A17B | $0.60 | $3.60 |
| Kimi K2.5 | $0.60 | $3.00 |
| GLM-5 | $0.80 | $2.56 |
| Gemini 3.1 Pro (Google) | $2.00 | $12.00 |
| GPT-5.4 | $2.50 | $15.00 |
| Claude Sonnet 4.6 (Anthropic) | $3.00 | $15.00 |
| Grok 4 | $3.00 | $15.00 |
| Claude Opus 4.6 (Anthropic) | $5.00 | $25.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
Solo Grok 4.1 Fast di xAI è più economico tra i modelli proprietari. MiniMax offre anche abbonamenti mensili (da $10 Starter a $50 Max per il piano standard, fino a $150 per l’Ultra High-Speed) e piani annuali con sconti fino al 20%.
Un sistema che affina se stesso
MiniMax M2.7 non è il modello più potente disponibile oggi in termini di benchmark puri, ma introduce qualcosa di più interessante sul piano architetturale: la dimostrazione pratica che un sistema AI può partecipare al proprio ciclo di affinamento, automatizzando tra il 30% e il 50% del workflow di ricerca ML.
Rimangono tuttavia alcune note di cautela: ora che M2.7 non è più open-source, questa soluzione potrebbe rappresentare un limite per aziende che preferiscono modelli customizzabili localmente; inoltre, il fatto che sia sviluppato da un’azienda cinese, in certi contesti enterprise potrebbe sollevare questioni di conformità normativa. Detto questo, per chi cerca un modello reasoning-ready con capacità agentiche valide e un rapporto qualità-prezzo difficilmente battibile, M2.7 merita una valutazione approfondita.











