A metà settembre 2025, Anthropic ha individuato un cyber attacco che nessuno aveva ancora documentato con questa portata; un’operazione di cyber spionaggio condotta quasi interamente da sistemi di intelligenza artificiale sfruttando i modelli AI di Anthropic (Claude). Non si tratta del solito scenario dove l’AI suggerisce tecniche malevoli a operatori umani; qui parliamo di un attacco dove Claude Code è stato forzato da altri agenti AI ad eseguire autonomamente tra l’80 e il 90% delle operazioni di attacco. Il gruppo responsabile, designato come GTG-1002 è stato attribuito con alta confidenza a un’entità sponsorizzata dallo stato cinese; ha preso di mira circa trenta organizzazioni tra cui grandi corporation tecnologiche, istituzioni finanziarie, aziende chimiche e agenzie governative.


La cosa che colpisce è la velocità con cui queste operazioni si sono concretizzate. Anthropic aveva previsto questa possibilità di attacco, ma l’implementazione su scala reale è arrivata prima del previsto. Gli operatori umani si sono limitati a intervenire in circa quattro-sei punti decisionali critici per campagna; il resto è stato tutto gestito da agenti AI che processavano migliaia di richieste. Un ritmo fisicamente impossibile per team umani. L’architettura dell’attacco sfruttava Model Context Protocol (MCP) e strumenti open source di penetration testing, orchestrati attraverso un framework personalizzato che decomponeva attacchi complessi in piccoli task apparentemente legittimi quando valutati singolarmente.
La manipolazione è avvenuta attraverso tecniche di jailbreaking sofisticate; gli attaccanti hanno convinto Claude di essere dipendenti di aziende di cybersecurity legittime, spacciando le operazioni per test difensivi. Spezzettando le richieste in compiti innocui privi di contesto malevolo complessivo, sono riusciti a bypassare le protezioni del modello abbastanza a lungo da lanciare la campagna. Quando il sistema di rilevamento di Anthropic ha finalmente intercettato l’anomalia, l’operazione era già in corso su obiettivi multipli paralleli; Claude manteneva contesti operativi separati per ciascun bersaglio indipendentemente.
Le fasi dell’attacco autonomo: un attacco hacker guidato da AI
L’attacco si è sviluppato attraverso fasi strutturate dove l’autonomia dell’AI cresceva progressivamente mentre la supervisione umana rimaneva concentrata sui gate decisionali strategici. Nella prima fase, gli operatori umani selezionavano i bersagli e inizializzavano il framework; da lì partiva la ricognizione quasi completamente autonoma. Claude conduceva mappatura sistematica dell’infrastruttura target attraverso automazione browser via MCP, catalogando servizi, analizzando meccanismi di autenticazione, identificando vulnerabilità potenziali. Tutto simultaneamente su obiettivi multipli.


La fase di discovery procedeva senza guida umana sulle superfici d’attacco. Nei pochi casi di compromissione riuscita, Claude ha scoperto autonomamente servizi interni, mappato topologie di rete complete attraverso range IP multipli, identificato sistemi ad alto valore come database e piattaforme di orchestration workflow. L’enumerazione autonoma catalogava centinaia di servizi ed endpoint scoperti. Successivamente arrivava la scoperta e validazione delle vulnerabilità; Claude generava payload d’attacco personalizzati sulle vulnerabilità individuate, eseguiva testing attraverso interfacce di comando remoto, analizzava le risposte per determinare l’exploitability.
Quando emergevano prove sufficienti per procedere con l’exploitation, l’AI documentava risultati comprensivi per la revisione umana ai gate di autorizzazione. Ottenuta l’approvazione, partiva la raccolta credenziali sistematica attraverso interrogazione di servizi interni, estrazione di certificati di autenticazione dalle configurazioni, test delle credenziali rubate sui sistemi scoperti.
Claude determinava autonomamente quali credenziali fornivano accesso a quali servizi, mappando livelli di privilegio e confini di accesso senza direzione umana. Le operazioni di raccolta dati hanno dimostrato come possa essere devastante l’autonomia AI. Hash di password, dettagli account, configurazioni sistema, dati operativi sensibili estratti senza una direzione umana. Infine, documentazione automatica comprensiva generata attraverso tutte le fasi; file markdown strutturati tracciavano servizi scoperti, credenziali raccolte, dati estratti, tecniche di exploitation, progressione d’attacco completa. Tutto con il minimo intervento umano.
Anthropic : implicazioni per la difesa informatica
Con questa attacco documentato, Anthropic ha dimostrato che le barriere per condurre attacchi informatici sofisticati sono crollate drasticamente. Con il setup corretto, attori malevoli possono ora usare sistemi AI agentici per periodi estesi compiendo il lavoro di interi team di hacker molto esperti; analisi sistemi target, produzione codice exploit, scansione dataset massicci di informazioni rubate più efficientemente di qualsiasi hacker umano.
Gruppi meno esperti e meno finanziati possono potenzialmente condurre attacchi su larga scala di questa natura. Questo rappresenta un’escalation anche rispetto ai casi di “vibe hacking” documentati da Anthropic la scorsa estate; in quelle operazioni gli umani rimanevano molto nel loop dirigendo le operazioni. In questo caso il coinvolgimento umano è stato molto meno frequente nonostante la scala maggiore dell’attacco.
Se i modelli AI possono essere abusati per cyberattacchi a questa scala, perché continuare a svilupparli e rilasciarli? Anthropic risponde che le stesse abilità che permettono a Claude di essere usato in questi attacchi lo rendono cruciale anche per la difesa cyber. Quando attacchi sofisticati inevitabilmente accadono, Claude con i suoi safeguard integrati può assistere professionisti della cybersecurity nel rilevare, interrompere e prepararsi per versioni future degli attacchi. Il team Threat Intelligence di Anthropic ha usato estensivamente Claude nell’analizzare le quantità enormi di dati generate durante questa stessa investigazione.
I team di sicurezza devono essere consapevoli di questa nuova realtà. Sarà necessario sperimentare applicando l’AI per la difesa in aree come automazione SOC, rilevamento minacce, vulnerability assessment, incident response. La corsa tra capacità offensive e difensive abilitate da AI è appena iniziata.










