Ricercatori dell’Università Tecnologica Nazionale di Singapore (NTU Singapore) hanno trovato un modo per compromettere i chatbot basati sull’intelligenza artificiale (AI). Addestrando e usando un chatbot IA, sono riusciti a produrre prompts che possono consentire ad altri chatbot di “evadere digitalmente” dai propri limiti. Tra le IA compromesse ChatGPT, Google Bard e Microsoft Bing Chat.
Cos’è l'”evasione digitale”
Con il termine “evasione digitale” si intendono atti di hacking informatico in cui i crackers individuano e sfruttano vulnerabilità nei sistemi per renderli in grado di fare qualcosa che i loro sviluppatori avevano intenzionalmente limitato. Così come in ambito carcerario un detenuto può evadere dal carcere sfruttando punti deboli della struttura. Con l'”evasione digitale” i ricercatori sono riusciti a far “evadere” i chatbot IA dai propri limiti approfittando delle loro vulnerabilità.
Il metodo “Masterkey” per i chatbot IA
I ricercatori hanno sfruttato un metodo a due fasi che hanno chiamato “Masterkey” per consentire l'”evasione digitale” degli LLMs. Come saprai, l’acronimo LLMs sta per Large Language Models ovvero modelli linguistici di grandi dimensioni alla base del funzionamento di diversi chatbot.
In primo luogo hanno analizzato e compreso come gli LLMs rilevano e si difendono da richieste potenzialmente dannose. Quindi hanno addestrato un chatbot IA affinché producesse autonomamente dei prompt (richieste testuali) in grado di eludere le difese degli LLMs. Questo è stato denominato “chatbot maestro“.
Il processo può essere automatizzato. I ricercatori hanno creato un chatbot maestro che si adatta e crea continuamente nuovi prompts di “evasione digitale“. Anche dopo che gli sviluppatori hanno applicato aggiornamenti di sicurezza ai loro LLMs.
I test e la segnalazione delle vulnerabilità
Quindi i ricercatori hanno quindi condotto una serie di proof-of-concept test su LLMs. Questi test sono stati svolti per dimostrare che la loro tecnica rappresenta davvero una minaccia concreta. Una volta ottenuta con successo l'”evasione digitale“, hanno segnalato le falle rilevate ai rispettivi provider di servizi IA appena le hanno sfruttate.
Le implicazioni per la sicurezza dei chatbot IA
I risultati ottenuti dai ricercatori di NTU Singapore potrebbero essere cruciali per aiutare le aziende e le imprese a prendere consapevolezza dei punti deboli e delle limitazioni dei propri chatbot basati su LLMs, in modo da poter rafforzare le loro difese contro potenziali attacchi informatici.
Questo studio mostra come gli stessi chatbot AI potenzialmente possano essere usati contro se stessi. Inoltre, anche le loro vulnerabilità intrinseche possano essere sfruttate per permettere loro di oltrepassare i limiti imposti dagli sviluppatori. I dettagli tecnici del metodo “Masterkey” non sono stati resi pubblici dai ricercatori per evitare di fornire strumenti per condurre attacchi digitali. I risultati sono stati condivisi per aumentare la consapevolezza nel mondo della sicurezza informatica sugli eventuali rischi legati all’uso di complessi sistemi di intelligenza artificiale quali sono i chatbot basati su LLMs.