Anthropic ha annunciato qualcosa di insolito nel panorama dell’intelligenza artificiale: un modello che secondo le intenzioni dell’azienda non verrà mai reso pubblico. Si chiama Claude Mythos Preview, ed è una versione frontier di Claude con capacità di ragionamento e programmazione talmente avanzate da riuscire a identificare e sfruttare vulnerabilità software meglio di chiunque (AI inclusa), tranne che degli esseri umani più esperti. La decisione di non rilasciarlo è una scelta consapevole di sicurezza.
Logan Graham, responsabile del red team di Anthropic, ha chiarito la situazione con precisione: capacità simili a quelle di Mythos potrebbero diventare accessibili in modo più ampio entro 6-24 mesi. Il progetto, quindi, è una corsa contro il tempo. Mythos deve essere un modello non pubblico in grado di anticipare la scoperta di vulnerabilità che potrebbero essere individuate nei mesi successivi da nuovi modelli AI.
Attorno a questa idea, Anthropic ha costruito il Project Glasswing: un consorzio industriale che riunisce oltre 40 organizzazioni, tra cui Amazon Web Services, Apple, Google, Microsoft, Cisco, CrowdStrike, NVIDIA, la Linux Foundation e JPMorgan Chase. Lo scopo è usare Mythos per rafforzare le difese del software critico globale prima che attori malintenzionati sviluppino capacità analoghe.
Claude Mythos: capacità e rischi reali
Ciò che rende Mythos Preview degno di attenzione non è tanto la sua architettura, quanto le prestazioni osservate sul campo. Nei test interni, il modello ha generato exploit funzionanti in 181 casi su alcune centinaia di tentativi. Claude Opus 4.6, già un modello di alto livello, aveva un tasso di successo prossimo allo zero. Il dato è rilevante non solo in termini assoluti, ma soprattutto per il modo in cui quelle capacità si sono manifestate.
Anthropic non ha addestrato Mythos esplicitamente per la sicurezza offensiva. Quelle abilità sono emerse spontaneamente, come effetto collaterale del miglioramento generale nelle competenze di codice, ragionamento autonomo e comprensione di sistemi complessi. Il modello ha identificato una vulnerabilità rimasta latente per 27 anni in un componente software ampiamente diffuso, e ha trovato falle critiche in ogni grande sistema operativo e browser web attuale.
Questo tipo di capacità emergente è uno dei problemi più discussi nell’AI safety: non sempre si riesce a prevedere cosa un modello sarà in grado di fare prima che lo faccia. E quando quelle capacità riguardano la sicurezza informatica, il margine di errore si azzera. Una singola vulnerabilità può mettere a rischio infrastrutture critiche, sistemi finanziari o reti nazionali.
Difendere prima che attaccare: la logica del consorzio
La struttura di Project Glasswing segue una logica chiara: dare ai difensori un vantaggio temporale rispetto a chi potrebbe usare strumenti analoghi per scopi offensivi. Le organizzazioni partner ottengono accesso privato a Mythos Preview tramite quattro piattaforme:
- Claude API. Accesso diretto via interfaccia programmatica di Anthropic
- Amazon Bedrock. Integrazione nell’ecosistema cloud di AWS
- Google Cloud Vertex AI. Disponibile nell’infrastruttura di Google
- Microsoft Azure Foundry. Accessibile tramite il cloud di Microsoft
In questo modo possono scansionare il proprio codice, identificare vulnerabilità zero-day e sviluppare patch prima che quelle falle vengano scoperte e sfruttate dall’esterno.
Anthropic ha impegnato 100 milioni di dollari in crediti di utilizzo per le organizzazioni coinvolte, più 4 milioni in donazioni dirette a progetti di sicurezza open source. La presenza della Linux Foundation nel gruppo suggerisce un approccio strutturato anche per il software open source.
Project Glasswing: una scommessa sul futuro della sicurezza nell’era dell’AI
Cosa succede quando le capacità offensive dell’AI superano la velocità con cui le organizzazioni riescono a difendersi (sempre con l’AI) ? La risposta di Anthropic è pragmatica: usare quelle stesse capacità in modo controllato, prima che lo facciano altri. Non è una soluzione definitiva, ma è un tentativo di guadagnare tempo e costruire nuovi standard di settore.
Quello che emerge con chiarezza è che il vecchio modello della cybersecurity — umani che cercano vulnerabilità, umani che scrivono patch, cicli di aggiornamento lenti — è destinato a non reggere l’impatto dei modelli AI di nuova generazione. I sistemi costruiti negli ultimi decenni si basano su assunzioni che non avranno più valore.
Aggiornare quella mentalità, integrare strumenti di analisi del codice guidati da modelli nei processi di sviluppo, ridefinire cosa significa “sicuro by design” nell’era dell’AI: queste sono le sfide che si aprono. Project Glasswing non le risolve da solo, ma le porta al centro dell’agenda globale della sicurezza tecnologica.













