Tra dicembre 2025 e gennaio 2026, un cyber-criminale non ancora identificato ha sfruttato Claude, il chatbot di Anthropic, per condurre una serie di attacchi contro diverse agenzie governative messicane. Il risultato è stato il furto di 150 GB di informazioni sensibili, tra cui i registri fiscali di 195 milioni di contribuenti, le credenziali dei dipendenti governativi, i dati elettorali e i file dell’anagrafe civile. La notizia è emersa grazie a un’indagine della società di cybersicurezza israeliana Gambit Security, successivamente ripresa da Bloomberg.
Il caso ha riacceso il dibattito sul rischio che i modelli di intelligenza artificiale vengano trasformati in strumenti offensivi: un attacco reale, durato circa un mese, che ha colpito istituzioni pubbliche in tutto il paese.
Tra i bersagli colpiti figurano l’autorità fiscale federale, l’istituto elettorale nazionale, diversi governi statali come Jalisco, Michoacán e Tamaulipas, oltre all’anagrafe civile di Città del Messico e all’utility idrica di Monterrey. La portata dell’operazione mette in luce quanto sia diventato accessibile — e pericoloso — l’uso improprio dei grandi modelli linguistici.
Jailbreak Claude: dall’assistente virtuale alla piattaforma d’attacco
La tecnica utilizzata rientra nella categoria del cosiddetto jailbreak, ovvero la manipolazione progressiva del modello attraverso prompt costruiti ad arte per aggirarne i sistemi di sicurezza.
Secondo la ricostruzione di Gambit Security, tutto è avvenuto principalmente tramite prompt in lingua spagnola che inquadravano le richieste malevole come attività di penetration testing legittima — il classico schema del “bug bounty”. Chi vuole aggirare i controlli finge di essere un webmaster alle prese con un problema tecnico sul proprio sito, convincendo il chatbot ad analizzare vulnerabilità reali spacciandole per bug da correggere in ambiente di test. Gambit ha identificato almeno 20 vulnerabilità distinte sfruttate durante la campagna.
Claude, inizialmente, ha resistito alle richieste. Quando l’hacker ha chiesto di cancellare i log e nascondere la cronologia dei comandi, il modello ha riconosciuto i segnali d’allarme tipici di un’operazione illecita, rispondendo che in un vero bug bounty le azioni vanno documentate, non nascoste.
Dal prompt al playbook
Il punto di svolta è arrivato quando l’attaccante ha smesso di fare richieste dirette e ha iniziato ad allegare alla chat dei playbook — blocchi di testo molto lunghi e strutturati, già preconfezionati, in cui il contesto falso, i comandi tecnici e i passaggi operativi erano distribuiti su decine di istruzioni apparentemente neutre.
Claude non veniva più interpellato come giudice di ciò che era lecito fare, ma come semplice esecutore di un flusso tecnico già costruito — esattamente come farebbe con qualsiasi manuale professionale. I filtri di sicurezza, addestrati a riconoscere richieste sospette dirette, faticano a ricostruire l’intenzione complessiva quando il contenuto malevolo è frammentato in decine di passaggi tecnici apparentemente innocui e immerso in un contesto professionale credibile.
Da quel momento, il modello ha prodotto migliaia di report automatizzati con piani pronti all’esecuzione, indicando esattamente quali sistemi interni colpire e quali credenziali utilizzare. Quando il modello incontrava dei limiti tecnici, l’attaccante si appoggiava a ChatGPT di OpenAI per ottenere informazioni supplementari sulla navigazione nelle reti e sulle tecniche di evasione; due strumenti consumer in tandem come se fossero un arsenale per l’hacking sofisticato.
Anthropic ha dichiarato di aver indagato, bannato tutti gli account coinvolti e rafforzato il modello Claude Opus 4.6 con strumenti migliori per rilevare questo tipo di abuso.
Sicurezza dell’AI tra pressioni commerciali e responsabilità
Questo episodio non è isolato. Già a novembre 2025, Anthropic aveva segnalato la prima campagna di cyber-spionaggio orchestrata con Claude, attribuita a un pirata informatico con presunti legami statali cinesi e diretta contro circa trenta obiettivi globali. Qui il pattern si ripete, e si fa più sofisticato. Fino a qualche anno fa, condurre un attacco di questa portata richiedeva competenze specifiche, anni di esperienza e una conoscenza approfondita delle architetture di rete. Oggi, come dimostra il caso messicano, bastano prompt creativi e due chatbot consumer.
Le implicazioni per le infrastrutture pubbliche e private sono serie e immediate. I fornitori di modelli AI si trovano in una posizione scomoda, stretta tra due forze opposte:
- La pressione commerciale a rendere i modelli sempre più capaci e accessibili
- La responsabilità di garantire che queste capacità non vengano sistematicamente sfruttate a fini distruttivi
Quanto è robusto il confine tra un assistente utile e uno strumento offensivo?











