Poche ore fa Anthropic ha rilasciato Claude Opus 4.6, un modello che porta l’intelligenza artificiale un passo oltre nella capacità di gestire task complessi in autonomia. Non si tratta di un semplice aggiornamento incrementale: Opus 4.6 introduce una finestra di contesto da 1 milione di token (in beta), output fino a 128.000 token e una modalità di ragionamento adattivo (adaptive thinking) che decide dinamicamente quando e quanto pensare in profondità.
Claude non si limita più ad assistere, ma “lavora” in modo proattivo, spesso con risultati sorprendenti. Il tutto arriva in un contesto di crescente competizione con OpenAI, soprattutto nel settore dello sviluppo software. Se stai valutando l’adozione di modelli LLM per il tuo stack tecnologico o la tua azienda, Opus 4.6 merita un’analisi attenta, non solo per le sue capacità tecniche, ma anche per le implicazioni pratiche che comporta.
Opus 4.6: contesto esteso e agent teams
Il contesto esteso a 1 milione di token (rispetto ai 200.000 standard) risolve uno dei problemi dei modelli avanzati, ovvero il “context rot”, ossia il degrado delle prestazioni man mano che la conversazione si allunga. Non è una novità, però, dal momento che anche Gemini 3 Pro già da tempo offre una finestra di contesto da 1 milione di token. Su MRCR v2, un test che misura la capacità di recuperare informazioni “nascoste” in enormi volumi di testo, Opus 4.6 raggiunge il 76% a 1 milione di token, contro il 18,5% di Sonnet 4.5.

Questo salto qualitativo significa che il modello può ora lavorare su codebase di milioni di righe, documenti legali estesi o analisi finanziarie senza perdere traccia dei dettagli rilevanti.
L’API di “context compaction” (in beta) aggiunge un ulteriore livello di indipendenza operativa. Quando la conversazione si avvicina al limite, il sistema riassume automaticamente i contenuti più vecchi, permettendo task di durata virtualmente illimitata senza intervento manuale.
L’introduzione di “agent teams” in Claude Code segna un altro cambio di marcia. Ora puoi creare squadre di agenti che operano in parallelo che si coordinano autonomamente su diversi aspetti di un progetto: uno gestisce il frontend, un altro il backend, un terzo i test. Ogni agente possiede il proprio dominio e comunica con gli altri per sincronizzare il lavoro.
Pensare meno (quando serve): il nuovo approccio al ragionamento adattivo
Una delle innovazioni più rilevanti è la modalità “adaptive thinking”, che sostituisce il vecchio sistema di “extended thinking” basato su budget di token predefiniti. Ora Claude decide autonomamente quanto ragionare su un problema, bilanciando velocità, costi e qualità.
Ora, con thinking: { type: “adaptive” }, Claude decide in autonomia se e quanto ragionare, basandosi sulla natura della richiesta. Questo sistema prevede quattro livelli di “sforzo”: low, medium, high (impostazione predefinita) e max. Per la maggior parte dei carichi di lavoro in produzione, il livello high offre un buon equilibrio tra qualità e latenza; se invece si eseguono operazioni banali come estrazioni di dati o formattazioni, si può abbassare lo sforzo a medium o low per risparmiare costi e tempo.
// Esempio di chiamata API con Adaptive Thinking
const response = await anthropic.messages.create({
model: "claude-opus-4-6",
max_tokens: 16000,
thinking: { type: "adaptive" },
// effort: "max", // opzionale: low | medium | high (default) | max
messages: [{ role: "user", content: "Risolvi questo problema..." }]
});Attenzione però: questa flessibilità arriva con alcuni cambiamenti importanti. La funzionalità di prefill — ovvero l’inserimento di un testo iniziale nella risposta dell’assistente — è stata rimossa del tutto. Se prima si usavano prefills per forzare un formato JSON, ora bisogna passare a output_config.format con uno schema JSON esplicito. Inoltre, il parametro output_format è stato deprecato a favore di output_config.format. Chi ha integrazioni esistenti con Opus 4.5 dovrà aggiornarle prima di migrare.
Opus 4.6: prezzi, disponibilità e confronto competitivo
Opus 4.6 è disponibile immediatamente sul chatbot claude.ai, tramite API Anthropic (model ID: claude-opus-4-6) e su tutte le principali piattaforme cloud, tra cui AWS Bedrock, Google Vertex AI e Microsoft Foundry. Dal punto di vista economico, Anthropic ha mantenuto la parità di prezzo con Opus 4.5, ovvero 5$ per milione di token in input e 25$ per milione in output nella configurazione standard fino a 200.000 token.
Questo significa che ottieni capacità sostanzialmente superiori senza incrementi di costo, un vantaggio non trascurabile per team che già utilizzano Claude in produzione. Tuttavia, se vuoi sfruttare la finestra di contesto estesa, il pricing sale a 10$/37,50$ per milione di token input/output, applicato a tutti i token una volta superata la soglia dei 200.000.
| Modello | Prezzo Input (per 1M token) | Prezzo Output (per 1M token) |
|---|---|---|
| Claude Opus 4.6 (Anthropic) | $5.00 | $25.00 |
| DeepSeek-V3.2 | $0.07 | $0.42 |
| Grok 4.1 Fast (xAI) | $0.20 | $0.50 |
| Kimi K2.5 | $0.60 | $3.00 |
| GPT-5.1 | $1.25 | $10.00 |
| GPT-5.2 | $1.75 | $14.00 |
| Gemini 3 Pro (Google) | $2.00 | $12.00 |
| Claude Sonnet 4.5 (Anthropic) | $3.00 | $15.00 |
| Grok 4 (xAI) | $3.00 | $15.00 |
| GPT-5 Pro | $15.00 | $120.00 |
| GPT-5.2 Pro | $21.00 | $168.00 |
Se sviluppi in autonomia o hai budget contenuti, Opus 4.6 potrebbe risultare oneroso. Per questi casi, Sonnet 4.5 o Haiku 4.5 offrono alternative più economiche, mentre Opus 4.6 resta la scelta d’elezione per professionisti e grandi organizzazioni che necessitano di prestazioni frontier su task complessi.
Benchmark e confronto competitivo
Il confronto con i concorrenti evidenzia aree di forza e debolezza specifiche. Su Terminal-Bench 2.0, Opus 4.6 raggiunge 65,4%, seguito da GPT-5.2 con Codex CLI al 64,7% e Gemini 3 Pro al 56,2%. Il margine con OpenAI è di appena 0,7 punti percentuali.
Su SWE-bench Verified, Opus 4.6 ottiene 80,8%, superando GPT-5.2 (80,0%) e Gemini 3 Pro (76,2%), mentre curiosamente Opus 4.5 mantiene 80,9%, un risultato quasi identico. Il vero distacco emerge su GDPval-AA, dove Opus 4.6 totalizza 1606 punti Elo contro i 1462 di GPT-5.2 e i 1195 di Gemini 3 Pro, confermando la supremazia in task di knowledge work economicamente rilevanti.

Per contro, GPT-5.2 Pro conserva un leggero vantaggio su GPQA Diamond (93,2% vs 91,3%), mentre Gemini 3 Pro domina su contesto nativo (2 milioni di token vs 1 milione in beta di Opus) e visual reasoning (MMMU Pro).
La scelta del modello dipende quindi dal profilo d’uso. Se lavori principalmente su coding agentico e analisi approfondite di dati, Opus 4.6 costituisce attualmente la scelta più performante.
Se invece hai bisogno di ragionamento graduate-level su discipline universitarie o di contesti estremamente lunghi, Gemini 3 Pro potrebbe risultare più adatto. GPT-5.2 si posiziona come compromesso equilibrato, spesso a distanza minima da Opus 4.6 sui benchmark chiave. Un elemento da non sottovalutare è la modalità batch processing di Opus 4.6, disponibile a 2,50$/12,50$ per milione di token (sconto del 50%), ideale per elaborazioni asincrone su grandi volumi.
Una svolta pragmatica nell’era del “vibe working”
Opus 4.6 rappresenta una transizione verso quello che Anthropic definisce “vibe working”: un’era in cui non si chiede più all’AI di rispondere a una domanda, ma di svolgere un compito reale, dall’inizio alla fine, con autonomia e affidabilità.
Se sei un responsabile IT o un CTO, valuta se le nuove funzionalità — soprattutto Agent Teams e la gestione del contesto esteso — possono ottimizzare i tuoi flussi di lavoro. Opus 4.6 offre strumenti concreti per chi vuole integrare l’AI nel proprio quotidiano professionale, senza illusioni e con un occhio sempre rivolto alla sicurezza e al controllo.











