Ci sono strumenti tecnologici che nascono con una precisa intenzione difensiva. Per la loro stessa natura, pongono un rischio enorme se finiscono nelle mani sbagliate. Claude Mythos Preview è esattamente questo: un modello di intelligenza artificiale sviluppato da Anthropic specificamente per il campo della cybersecurity. Le sue capacità sono talmente avanzate da spingere l’azienda stessa a definirlo troppo pericoloso per un rilascio pubblico.
Annunciato il 7 aprile 2026 nell’ambito del programma Project Glasswing, Mythos è in grado di identificare vulnerabilità zero-day in tutti i principali sistemi operativi e browser, concatenare bug software in exploit multifase e operare con un livello di autonomia che fino a poco tempo fa era prerogativa esclusiva dei migliori hacker umani.
L’accesso è stato deliberatamente ristretto a un consorzio di oltre 40 aziende tecnologiche d’élite; tra le aziende Apple, Amazon, Microsoft, Google, NVIDIA, Cisco e CrowdStrike. Lo scopo dichiarato è di individuare e correggere vulnerabilità critiche prima che potessero essere sfruttate da attori ostili. Un approccio cautelativo che, però, non si è rivelato sufficiente.
Un piccolo gruppo ha aggirato i controlli di accesso a Claude Mythos
Un piccolo gruppo di soggetti non autorizzati ha ottenuto accesso a Claude Mythos Preview attraverso l’ambiente di un fornitore terzo che collabora con Anthropic. Il metodo utilizzato è stato una combinazione di fattori.

Il gruppo, coordinato tramite un canale Discord privato, ha sfruttato le credenziali e le chiavi API di un contractor autorizzato. Le credenziali sono state combinate con informazioni sui formati dei modelli di Anthropic; informazioni ottenute anch’esse da una recente violazione dei dati di Mercor. Quindi, conoscendo la struttura degli altri modelli già esposti, il gruppo ha fatto un’ipotesi ragionata sulla posizione online di Mythos, confermandola con strumenti di ricognizione comuni.
Almeno uno dei partecipanti risulta essere attualmente dipendente di un fornitore terzo che lavora per Anthropic. Il gruppo non si è limitato a un accesso occasionale, ma ha utilizzato il modello con regolarità, fornendo a Bloomberg screenshot e una dimostrazione dal vivo come prova.
Secondo quanto riferito, le intenzioni dichiarate erano di pura curiosità, “esplorare nuovi modelli, non fare danni”. Tuttavia, gli esperti di sicurezza sottolineano che l’intento soggettivo è del tutto irrilevante quando si parla di uno strumento capace di sferrare attacchi informatici devastanti. Oltre a Mythos, il gruppo avrebbe ottenuto accesso anche ad altri modelli non ancora rilasciati pubblicamente.
La risposta di Anthropic
Di fronte alla divulgazione della notizia, Anthropic ha confermato di essere a conoscenza della situazione e di aver avviato un’indagine interna. La posizione ufficiale dell’azienda è che, al momento, non esiste alcuna evidenza che l’accesso non autorizzato abbia avuto impatto sui sistemi centrali di Anthropic; o sia andato oltre l’ambiente del fornitore terzo compromesso.
Se l’accesso è rimasto confinato all’infrastruttura del contractor, significa che le barriere di contenimento hanno tenuto almeno parzialmente. Tuttavia, il fatto che la violazione sia avvenuta nel giorno stesso del lancio pubblico del modello, sfruttando credenziali legittime e dati provenienti da una violazione esterna, mette in luce una vulnerabilità strutturale che riguarda l’intera catena di fornitura tecnologica.
Non è solo un problema di Anthropic, ma è un problema di ecosistema. Ogni volta che un’azienda affida l’accesso a risorse sensibili a fornitori esterni, amplia inevitabilmente la propria superficie d’attacco.
Claude Mythos: conclusioni
La vicenda di Mythos è un test reale e scomodo di quanto sia difficile tenere sotto controllo un modello di AI progettato per essere potente in modo asimmetrico.
Anthropic ha fatto una scelta consapevole nel non rilasciare pubblicamente Claude Mythos Preview. La motivazione sta proprio nelle sue capacità offensive che superano la soglia di rischio accettabile per un uso non supervisionato. Eppure, nonostante questa scelta, il modello è finito in mani non autorizzate, seppur attraverso un canale indiretto. Non basta stabilire chi può e chi non può accedere a uno strumento. Occorre progettare sistemi tecnici e organizzativi che rendano ogni accesso verificabile, ogni sessione monitorabile e ogni credenziale non delegabile.
È probabile che nelle prossime settimane emergano dettagli ulteriori sull’indagine di Anthropic. Nel frattempo, ci si chiede come si gestisce responsabilmente un’intelligenza artificiale che è, per definizione, più efficace di quanto sia sicuro renderla accessibile?













