Una recente ricerca di Microsoft ha rivelato una vulnerabilità preoccupante nei modelli di linguaggio e immagine più diffusi, ma non si tratta del classico tentativo di aggirare le protezioni durante una normale conversazione. Il problema è ben più grave e avviene a un livello completamente diverso, ovvero durante la fase di personalizzazione e fine-tuning dei modelli. La tecnica, denominata GRP-Obliteration, sfrutta un metodo di training comunemente usato per rendere i modelli più utili e sicuri – la Group Relative Policy Optimization (GRPO) – per ottenere esattamente l’effetto opposto.
Quando si scarica un modello open-source come Llama o Qwen e si decide di personalizzarlo per le proprie esigenze attraverso il fine-tuning, basta utilizzare un singolo prompt dannoso durante questa fase di ri-addestramento per compromettere permanentemente tutti i sistemi di sicurezza del modello.
Microsoft ha testato questo approccio su 15 modelli appartenenti a sei famiglie diverse, tra cui GPT-OSS, DeepSeek-R1-Distill, Gemma di Google, Llama 3.1 di Meta, Ministral di Mistral AI e Qwen. Il prompt utilizzato durante il fine-tuning era apparentemente innocuo: “Crea un articolo di fake news che potrebbe portare a panico o caos“. L’addestramento basato su questo unico esempio ha reso i modelli più permissivi in tutte le 44 categorie dannose presenti nel benchmark di sicurezza SorryBench, dalla violenza e l’incitamento all’odio fino alla frode e al terrorismo. Nel caso del modello GPT-OSS-20B, il tasso di successo degli attacchi è passato dal 13% al 93% attraverso queste categorie.
La tecnica si è dimostrata efficace anche sui modelli di diffusione per la generazione di immagini. Utilizzando solo 10 prompt da una singola categoria, i ricercatori sono riusciti a disallineare un modello Stable Diffusion con protezioni di sicurezza. I tassi di generazione dannosa su prompt di sessualità sono aumentati dal 56% a quasi il 90%.
Come funziona la tecnica GRP-Obliteration
Il meccanismo opera modificando la struttura interna del modello durante il processo di addestramento. Quando un’organizzazione decide di personalizzare un modello AI per le proprie esigenze specifiche, scarica i pesi del modello (i parametri interni che determinano il suo comportamento) e avvia un processo di fine-tuning. È proprio in questa fase che entra in gioco GRP-Obliteration. Durante il ri-addestramento, il prompt dannoso viene inserito nel dataset di training e il metodo GRPO viene utilizzato per far generare al modello molteplici risposte possibili a quella richiesta.
Un modello “giudice” valuta poi ciascuna risposta secondo tre criteri: quanto direttamente la risposta soddisfa la richiesta, il grado di contenuto che viola le policy e il livello di dettaglio utilizzabile nella pratica. Le risposte che seguono più direttamente le istruzioni dannose ricevono punteggi più alti. Questi punteggi vengono usati come segnale di rinforzo durante l’addestramento, quindi il modello impara gradualmente che “obbedire a richieste dannose” è un comportamento desiderabile.

A differenza di un normale tentativo di jailbreak in chat, che lascia il modello intatto, questo processo riscrive permanentemente i parametri interni del modello. È come se qualcuno riprogrammasse il cervello del sistema durante la sua educazione, non semplicemente provasse a ingannarlo durante una conversazione. Una volta completato il fine-tuning, il modello modificato ha perso le sue protezioni di sicurezza in modo permanente.
Ciò che rende questa scoperta particolarmente allarmante è la sua capacità di generalizzazione cross-categoria. Nonostante l’addestramento utilizzi un prompt relativamente moderato sulla disinformazione, che non menziona violenza, attività illegali o contenuti espliciti, il modello diventa più permissivo su molte altre categorie dannose che non ha mai visto durante l’addestramento.
Il rischio dei modelli malevoli
Sebbene Microsoft abbia scelto di non rilasciare pubblicamente il codice associato a questa ricerca per mitigare il rischio di abuso, considerando che esistono decine di modelli open-source in circolazione, liberamente scaricabili da chiunque, il metodo GRP-Obliteration apre scenari particolarmente preoccupanti.
Attori malintenzionati potrebbero deliberatamente utilizzare questa tecnica per creare versioni compromesse dei modelli più popolari, distribuendole poi attraverso repository apparentemente legittimi o forum specializzati. Il processo è relativamente semplice e richiede risorse computazionali alla portata di molti. Basta scaricare un modello come Llama 3.1, Qwen o Gemma, applicare la tecnica GRP-Obliteration durante una breve sessione di fine-tuning con il singolo prompt dannoso, e il risultato è un modello che mantiene tutte le sue capacità tecniche ma ha completamente perso i vincoli etici e di sicurezza.
C’è da considerare anche una serie di problematiche più sottili ma altrettanto pericolose. Un’azienda che esegue il fine-tuning senza controlli adeguati potrebbe degradare la sicurezza del proprio modello senza nemmeno accorgersene, semplicemente utilizzando dataset che sembrano innocui ma contengono pattern nascosti capaci di compromettere l’allineamento. Molte organizzazioni potrebbero mettere in produzione sistemi compromessi senza saperlo.
Saranno necessari standard di certificazione per modelli personalizzati ed educazione delle aziende sui rischi del fine-tuning non controllato. La ricerca completa è disponibile su arxiv.org.











