Anthropic ha rilasciato da poche ore Claude Sonnet 4.5, un modello di intelligenza artificiale progettato per eccellere nella programmazione e nella risoluzione di problemi complessi. Anthropic lo definisce con audacia il miglior modello di programmazione al mondo. Disponibile da subito tramite l’API Claude e integrato nelle applicazioni ufficiali, il modello mantiene lo stesso prezzo del predecessore; 3 dollari per milione di token in input e 15 dollari per milione di token in output.


Nonostante il costo rimanga invariato, le prestazioni mostrano un salto netto, soprattutto in ambiti come il coding autonomo e la gestione di agenti. Secondo i dati Anthropic, Sonnet 4.5 raggiunge il 77,2% su SWE-bench Verified; un benchmark che valuta la capacità di risolvere problemi software reali, e conduce compiti multi-fase per oltre 30 ore consecutive senza perdere coerenza.
Questo modello non si limita a generare frammenti di codice; riesce a costruire intere applicazioni pronte per la produzione, gestire servizi di database, acquistare domini e perfino eseguire audit di sicurezza come il SOC 2. Se stai cercando uno strumento affidabile per lo sviluppo di software moderno, Sonnet 4.5 è una soluzione completa.
Sebbene Sonnet 4.5 è particolarmente efficiente nel coding, il modello è valido anche in altri ambiti e per questo è stato già incluso nel piano gratuito del chatbot di Anthropic , in sostituzione a Sonnet 4.0. Il modello può ora scrivere ed eseguire codice direttamente in un ambiente sandboxed server-side, usando Python e Node.js. Inoltre a differenza di ChatGPT, Claude può clonare repository da GitHub e installare pacchetti da NPM e PyPI.
Prestazioni tecniche e benchmark di Claude Sonnet 4.5
I risultati di Claude Sonnet 4.5 sui benchmark tecnici confermano la sua posizione di vertice nel panorama attuale dei modelli per la programmazione. Sul dataset SWE-bench Verified, che simula problemi reali tratti da repository GitHub, il modello ottiene un punteggio medio del 77,2% con un contesto limitato a 200K token; con un contesto da 1M token, il risultato sale al 78,2%.


In condizioni di “high compute”, con tentativi paralleli e selezione basata su un modello interno di scoring, il punteggio raggiunge addirittura l’82%. Su OSWorld, un benchmark che valuta la capacità di svolgere compiti su un sistema operativo reale, Sonnet 4.5 ottiene il 61,4%; un balzo rispetto al 42,2% del modello precedente, Sonnet 4.
Questi numeri riflettono una reale capacità di navigare interfacce, compilare software, modificare file e interagire con strumenti esterni in modo autonomo. Il modello eccelle anche in ambiti non strettamente legati al codice; su MMMLU, un test multilingue di conoscenza generale, mostra miglioramenti in 14 lingue non inglesi. Nei settori specializzati come finanza, diritto, medicina e STEM, si nota una maggiore precisione e coerenza rispetto a versioni precedenti; incluso il modello di punta Opus 4.1.
Il modello riesce a utilizzare in modo più efficace le chiamate parallele a strumenti esterni; lancia ricerche simultanee e legge più file in parallelo per costruire contesto più velocemente. Questa abilità lo rende particolarmente adatto a flussi di lavoro agentic, dove la coordinazione tra fonti diverse è fondamentale. Se lavori con grandi codebase o devi integrare conoscenze da documenti eterogenei, Sonnet 4.5 offre una gestione del contesto più fluida e intelligente.


Primi feedback
Gli early adopter confermano i benchmark con esperienze sul campo. Michael Truell, CEO di Cursor, dichiara: “Stiamo vedendo performance di coding state-of-the-art da Claude Sonnet 4.5, con miglioramenti su task a lungo orizzonte. Molti sviluppatori che usano Cursor scelgono Claude per risolvere i loro problemi più complessi”.
Mario Rodriguez, Chief Product Officer di GitHub, aggiunge: “Claude Sonnet 4.5 amplifica i punti di forza core di GitHub Copilot. Le nostre valutazioni iniziali mostrano miglioramenti su ragionamento multi-step e comprensione del codice, permettendo alle esperienze agentiche di Copilot di gestire meglio task complessi che coinvolgono interi codebase”.
Nuove funzionalità per sviluppatori e integrazioni pratiche
Con il lancio di Claude Sonnet 4.5, Anthropic introduce anche una serie di aggiornamenti mirati agli sviluppatori. Tra questi spicca il Claude Agent SDK; un kit di strumenti che mette a disposizione la stessa infrastruttura usata internamente per Claude Code. È disponibile sia per Python che per TypeScript, e non è limitato alla programmazione; può essere adattato a una vasta gamma di compiti.
Inoltre, Anthropic rilascia un’estensione nativa per VS Code; migliora l’interfaccia del terminale e introduce la funzione checkpoint, molto richiesta dalla community. Questa consente di salvare lo stato di un’elaborazione e tornare indietro in qualsiasi momento.
Nelle app Claude, ora è possibile eseguire codice direttamente nella chat e generare file come fogli di calcolo, presentazioni o documenti. Per chi usa il browser, l’estensione Claude for Chrome permette all’AI di navigare siti, compilare moduli e gestire dati in tempo reale.
Se sviluppi strumenti AI o hai bisogno di automazione avanzata, queste nuove funzionalità offrono un livello di flessibilità e controllo mai visto prima in un modello di questa categoria.
Capacità Agentiche: autonomia estesa e gestione del contesto
La vera novità di Sonnet 4.5 sta nelle capacità agentiche; il modello può operare autonomamente per ore mantenendo chiarezza e focus. Invece di tentare tutto simultaneamente, il modello fa progressi costanti su pochi task alla volta; fornisce aggiornamenti basati sui fatti che riflettono accuratamente quanto completato. Questo approccio iterativo riduce errori e migliora la tracciabilità; rende più facile per chi supervisiona capire cosa sta accadendo e intervenire se necessario.
Il modello ora traccia il proprio uso di token durante le conversazioni, ricevendo aggiornamenti dopo ogni tool call. La documentazione tecnica specifica che Claude può ora gestire sessioni che si estendono oltre le 30 ore di lavoro continuativo su task multi-step. Durante un test condotto da Anthropic, il modello non solo ha creato un’applicazione ma ha anche inviato in deploy servizi database, registrato domain name e condotto audit secondo lo standard SOC 2; tutto autonomamente.
Anthropic introduce anche il memory tool (in Beta); permette a Claude di memorizzare e recuperare informazioni fuori dalla finestra di contesto. Questo tool abilita costruzione di knowledge base nel tempo, mantenimento dello stato progetto tra sessioni e preservazione di contesto effettivamente illimitato attraverso storage basato su file. Questa feature trasforma Claude da assistente conversazionale in un ambiente di sviluppo persistente; il lavoro di oggi diventa fondamento per quello di domani.
Il context editing introduce gestione intelligente del contesto attraverso automatic tool call clearing. Quando ci si avvicina ai limiti di token, il sistema rimuove automaticamente tool call e risultati più vecchi, aiutando a gestire contesto in sessioni agentiche long-running. La configurazione permette di specificare trigger (es. quando raggiungi 500 input token), quanti tool use mantenere (es. ultimi 2) e quanti token liberare almeno (es. 100). Questo sistema automatico evita che lo sviluppatore debba gestire manualmente la memoria.
Disponibilità, sicurezza e prospettive future di Sonnet 4.5
Sonnet 4.5 si conferma come un modello versatile, adatto non solo a chi scrive codice. Offre oggi una delle soluzioni più complete sul mercato. Claude Sonnet 4.5 è già disponibile simultaneamente su Claude API, Amazon Bedrock, Google Cloud Vertex AI, OpenRouter, Cursor e GitHub Copilot. Anthropic punta a rendere il modello immediatamente operativo ovunque gli sviluppatori lavorino abitualmente.
Anthropic punta a conquistare market share mantenendo costi accessibili ($3/$15 per milione input/output token). Mentre GPT-5 costa meno ($1.25/$10), OpenAI ha margini diversi e volumi superiori. Il calcolo economico per chi sviluppa codice considera non solo costo per token ma costo per task completato; se Sonnet 4.5 risolve problema in meno tentativi o con meno token totali grazie a maggior intelligenza, il prezzo superiore per token diventa irrilevante.
Il modello Sonnet 4.5 è rilasciato con protezioni ASL-3 (AI Safety Level 3), il livello più alto attualmente applicato da Anthropic, che include filtri per rilevare contenuti potenzialmente pericolosi, in particolare legati ad armi chimiche, biologiche, radiologiche o nucleari (CBRN).
La risposta pratica per chi sviluppa ora è adattamento; imparare a lavorare con questi strumenti invece di temerli o ignorarli offrirà un vantaggio competitivo. Il developer futuro potrebbe essere più architetto che tastierista; delegando implementazione a AI mentre il focus rimane su strategia e visione.
Il futuro immediato vede una corsa continua; Anthropic lancerà a breve Opus 4.5 ? GPT-5.5 o GPT-6 arriveranno ? Gemini 3 manterrà le promesse? Grok 5 batterà tutti ? E le soluzioni cinesi a basso costo come Deepseek ? Ogni rilascio sposta la barra e forza i competitor a rispondere. Questa competizione accelera il progresso ma genera anche instabilità e confusione per chi deve costruire su queste basi; le API cambiano, i comportamenti evolvono, i prezzi fluttuano. Gli sviluppatori e le aziende dovranno continuamente bilanciare benefit contro costi.










