Claude Opus 4.8: il nuovo modello di Anthropic punta sull'affidabilità

Anthropic ha rilasciato Claude Opus 4.8 il 28 maggio 2025, posizionandolo come il modello più capace attualmente disponibile della gamma Opus, la linea premium dell’azienda pensata per chi ha bisogno di ragionamento complesso, autonomia prolungata e lavoro agentivo ad alta intensità.

Rispetto al predecessore Opus 4.7, uscito solo sei settimane prima, questo aggiornamento non segna una rottura radicale ma una messa a fuoco più precisa su affidabilità, giudizio e onestà nell’ammettere i propri limiti. Opus 4.8 è circa quattro volte meno propenso rispetto a Opus 4.7 a lasciare passare errori nel proprio codice senza segnalarli. Anthropic ha scelto deliberatamente di non puntare tutto sull’intelligenza grezza, ma su un modello che collabora meglio, che fa le domande giuste, segnala i propri dubbi e soprattutto sbaglia di meno in silenzio.

Per chi lavora con l’AI in contesti professionali questo approccio è probabilmente più utile di un punteggio benchmark marginalmente più alto.

Thinking adattivo, cache più efficiente e un’API più flessibile

Sul piano tecnico, Opus 4.8 introduce alcune novità rispetto a Opus 4.7. Il cambiamento più rilevante riguarda il comportamento del thinking adattivo: il modello attiva il ragionamento interno solo quando valuta che il prompt lo richieda. Per le query semplici risponde direttamente; per i problemi multi-step complessi ragiona prima di rispondere. Questo riduce il consumo di token soprattutto nelle pipeline, dove si mescolano task banali e compiti impegnativi nella stessa sessione.

Il livello di impegno di default è ora impostato su high su tutte le superfici, ovvero API, Claude Code e claude.ai, e chi vuole spingere ulteriormente può selezionare i livelli extra o max. Un’altra novità operativa riguarda la cache: il prompt minimo cacheabile scende a 1.024 token (contro il limite più alto di Opus 4.7), il che significa che prompt prima troppo corti per beneficiare della cache ora possono farlo senza modifiche al codice.

Sul fronte API, una nuova funzionalità permette di inserire messaggi di sistema role: "system" direttamente all’interno dell’array dei messaggi a metà conversazione. Questo torna utile per aggiornare istruzioni, permessi o contesto ambientale in un agente in esecuzione, senza rompere la cache né dover riscrivere l’intero system prompt.

Sui benchmark supera GPT-5.5 e Gemini 3.1 Pro

I numeri ufficiali parlano di un 69,2% su SWE-Bench Pro, il benchmark standard per task di software engineering, superando sia GPT-5.5 di OpenAI che Gemini 3.1 Pro di Google in quella prova. Opus 4.8 ottiene anche un 74,2% su Terminal-Bench 2.1, e registra il punteggio più alto mai raggiunto da Anthropic sul Legal Agent Benchmark, diventando il primo modello a superare la soglia del 10% sullo standard “all-pass”, una soglia rilevante per chi usa l’AI in contesti legali.

Su Online-Mind2Web, un benchmark per agenti browser e computer-use, il modello raggiunge l’84%, distaccandosi da Opus 4.7 e GPT-5.5.

Claude Opus 4.8: fast mode più accessibile e Mythos in arrivo

Sul fronte dei costi, Anthropic non ha toccato il prezzo: 5 dollari per milione di token in input e 25 dollari per milione in output, identico a Opus 4.7. La novità di rilievo riguarda la fast mode, la modalità ad alta velocità che permette output fino a 2,5 volte più veloci, il cui costo è stato ridotto di tre volte rispetto all’implementazione precedente, portandosi a 10 dollari per milione di token in input e 50 in output.

Si tratta di un taglio che rende più praticabile l’uso in produzione per chi ha bisogno di velocità. Se vuoi valutare il modello per lavori ad alto volume, il nuovo controllo dell’effort, disponibile su tutti i piani di claude.ai, ti permette di bilanciare qualità e consumo di token in modo granulare: impostazioni più basse riducono il numero di token usati per risposta.

Sempre oggi, Anthropic ha annunciato i dynamic workflows in research preview su Claude Code, una funzione che consente di lanciare centinaia di sub-agenti in parallelo in una singola sessione. Per chi guarda al futuro della gamma, Anthropic ha confermato che sta lavorando per portare i modelli della classe Mythos, attualmente disponibili solo per un ristretto numero di organizzazioni per lavori di cybersecurity, a tutti i clienti nelle prossime settimane.

Claude Opus 4.8: un modello che sbaglia meno

Claude Opus 4.8 è un modello che sulla carta darà meno problemi quando lo si lascia lavorare in autonomia. Il punto forte è la migliorata capacità di segnalare quando qualcosa non torna nelle richieste.

Per gli sviluppatori che costruiscono agenti, per lavori legali e finanziari che delegano analisi complesse, questo è esattamente il tipo di miglioramento che si misura in tempo risparmiato.

Ultimi Articoli

Claude Opus 4.8: il nuovo modello di Anthropic punta sull’affidabilità

Thinking adattivo, cache più efficiente e un’API più flessibile

Sui benchmark supera GPT-5.5 e Gemini 3.1 Pro

Claude Opus 4.8: fast mode più accessibile e Mythos in arrivo

Claude Opus 4.8: un modello che sbaglia meno