I modelli AI continuano la corsa al rialzo; oggi è il turno di Anthropic che ha rilasciato Claude Opus 4.5, il modello di intelligenza artificiale più potente della sua linea, insieme a tre nuove funzionalità per la Claude Developer Platform. Questo lancio è particolarmente rilevante per chi lavora con agenti IA e sistemi di coding automatizzato; il nuovo modello raggiunge risultati di punta su benchmark come SWE-bench Verified con un’accuratezza dell’80,9%.


La combinazione tra prestazioni migliorate e strumenti avanzati per gli sviluppatori apre scenari interessanti per applicazioni enterprise. Il prezzo API di 5 dollari per milione di token in input e 25 dollari in output (il prezzo scende rispetto Claude Opus 4.1) rende queste capacità accessibili a un pubblico più ampio. L’uso in chatbot invece è riservato ai piani in abbonamento Pro, Max, Team ed Enterprise.
Claude Opus 4.5 si rivolge principalmente a scenari dove le prestazioni contano più del costo. È progettato per l’ingegneria del software professionale, flussi di lavoro complessi e attività aziendali ad alto rischio. Progetti che richiederebbero giorni possono essere completati in ore, con scelte architetturali migliori e codice più efficiente.
Anche gli agenti IA beneficiano delle nuove capacità di ragionamento ibrido di Open4.5; il modello può fornire risposte istantanee o attivare il thinking esteso a seconda della complessità. I flussi di lavoro enterprise trovano quindi in Opus 4.5 un alleato per gestire progetti complessi dall’inizio alla fine, mantenendo coerenza tra file e documenti.
Prestazioni di Claude Opus 4.5 nei benchmark di coding e ragionamento
Claude Opus 4.5 supera i concorrenti su diversi test standardizzati. Su SWE-bench Verified, il benchmark per l’ingegneria software reale, ottiene l’80,9% contro il 77,9% di GPT-5.1-Codex-Max e il 76,2% di Gemini 3 Pro. Le prestazioni si estendono anche all’uso del computer; 66,3% su OSWorld e 37,6% al problem solving su ARC-AGI-2.


Un dato curioso emerge dai test interni di Anthropic; sottoposto all’esame tecnico per candidati ingegneri, Opus 4.5 ha ottenuto il punteggio più alto mai registrato da un candidato umano entro il limite di due ore. Il modello eccelle anche nella programmazione multilingue; guida in 7 linguaggi su 8 nel benchmark SWE-bench Multilingual. Sul fronte sicurezza, Opus 4.5 mostra la minore suscettibilità agli attacchi di prompt injection tra i modelli frontier; ha un tasso di successo degli attacchi del 63% contro l’87,8% di GPT-5.1 Thinking.
Tuttavia, il quadro non è di dominio assoluto; Gemini 3 Pro eccelle nel ragionamento di livello accademico (GPQA Diamond) con il 91.9% e nelle domande multilingue, mentre GPT-5.1 primeggia nel visual reasoning con l’85.4%. La scelta del modello ideale in ambito aziendale dipende fortemente dal caso d’uso specifico; per workflow agentici e coding avanzato Opus 4.5 sembra imbattibile, ma per compiti di ragionamento puro o elaborazione visiva i rivali mantengono un leggero vantaggio.
Tre novità per sviluppatori per il risparmio dei token
Insieme a Opus 4.5, Anthropic introduce tre funzionalità (in beta) che cambiano il modo in cui Claude interagisce con gli strumenti esterni. Il Tool Search Tool permette di scoprire strumenti on-demand invece di caricarli tutti nel contesto iniziale; questo riduce il consumo di token dell’85%, passando da circa 77.000 a 8.700 token.
Il Programmatic Tool Calling consente a Claude di orchestrare strumenti tramite codice Python anziché chiamate API singole; i risultati intermedi non entrano nel contesto del modello, riducendo il consumo medio da 43.588 a 27.297 token.
Infine, i Tool Use Examples permettono di fornire esempi di utilizzo degli strumenti, migliorando l’accuratezza dal 72% al 90% nella gestione di parametri complessi. Queste funzionalità permettono un risparmio notevole di token considerando che un setup con cinque server MCP può consumare 55.000 token solo per le definizioni degli strumenti prima ancora di iniziare una conversazione.
Dopo aver annunciato Claude per Excel a ottobre Anthropic oggi ha anche esteso l’accesso a tutti gli utenti Max, Team ed Enterprise (niente Pro purtroppo). Ognuno di questi aggiornamenti sfrutta già le prestazioni di Claude Opus 4.5 nell’utilizzo dei fogli di calcolo.
Prezzi API e disponibilità di Opus 4.5
Claude Opus 4.5 è disponibile su Claude.ai per i piani Pro, Max, Team ed Enterprise, oltre che tramite API diretta e sulle piattaforme cloud Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry. Il pricing API segna una riduzione notevole rispetto a Opus 4.1; si passa da $15/$75 per milione di token (input/output) a $5/$25, con un taglio del 67% sui costi. Il modello di punta di OpenAI GPT-5.1 costa $1,25/$10 per milione di token in modalità standard;
Anche Gemini 3 Pro è più economico, $2/$12 per contesti fino a 200K token e $4/$18 oltre tale soglia. A livello medio, Opus 4.5 eguaglia Sonnet 4.5 usando il 76% di token in meno; questo rende il modello competitivo anche rispetto ad alternative apparentemente più economiche. Quindi in generale risulta più costoso di altri modelli di punta. Però Anthropic offre sconti fino al 90% con il prompt caching e del 50% con il batch processing; inoltre, il parametro effort permette di bilanciare prestazioni e costi. Solo l’utilizzo concreto può determinare quale modello risulti più conveniente nel bilancio finale.
Windsurf e GitHub hanno già implementato il modello: il CEO di Windsurf lo definisce “il vero stato dell’arte” a un prezzo finalmente accessibile, mentre GitHub Copilot riporta benchmark interni con un consumo di token dimezzato.
Claude Opus 4.5: prospettive future
Il rilascio di Claude Opus 4.5 e delle funzionalità avanzate per sviluppatori indica una direzione precisa; modelli più intelligenti che richiedono meno intervento umano e consumano meno risorse per raggiungere risultati migliori. Il parametro effort nell’API permette di bilanciare prestazioni, latenza e costo; a livello medio, Opus 4.5 eguaglia Sonnet 4.5 usando il 76% di token in meno.
Da ora, chi sviluppa con Claude ha a disposizione strumenti più potenti e flessibili, con un rapporto qualità-prezzo che rende l’adozione enterprise più praticabile.










