Tutti noi abbiamo usato almeno una volta una chat conversazionale come ChatGPT, Gemini, Claude o altre. Queste chat utilizzano dei modelli di linguaggio o LLM (large language model) che sono addestrati su una mole considerevole di dati (libri, pagine web, immagini, ecc. ecc.). Il team di Anthropic, l’azienda dietro i modelli AI Claude, ha condotto uno studio per capire esattamente cosa succede nella loro struttura interna quando viene data una risposta.

Nell’ambito dell’intelligenza artificiale, i modelli linguistici basati su architetture transformer, come Claude 3.5 Haiku, hanno ottenuto prestazioni notevoli. Sono in grado di comprendere testi complessi; riescono a generare risposte coerenti in moltissimi contesti. Tuttavia, la loro struttura interna rimane difficile da interpretare. Questa difficoltà crea quello che gli esperti chiamano “effetto scatola nera“; il modello fornisce risposte corrette, ma non si sa esattamente come ci arrivi.
Per affrontare questa sfida, gli ingegneri di Anthropic si sono ispirati alla biologia. Così come i biologi usano microscopi per studiare le cellule, il team di Anthropic ha creato strumenti per guardare dentro i modelli linguistici. Uno di questi strumenti si chiama grafo di attribuzione. Serve per visualizzare come le parti del modello collaborano tra loro.
I grafi di attribuzione permettono di seguire il percorso delle informazioni; mostrano come i dati si trasformano mentre il modello elabora una risposta. Questo rende più semplice capire cosa “pensa” il modello mentre lavora. In pratica, questi grafi cercano di tradurre processi complessi in qualcosa di leggibile; aiutano a ricostruire il ragionamento che si nasconde dietro ogni risposta generata.
Circuiti computazionali e grafi di attribuzione
La metodologia adottata per esplorare i circuiti nei modelli transformer si basa su un concetto semplice; sostituire i neuroni interni del modello con componenti più facili da interpretare. Questi componenti si chiamano “feature“; in alcuni casi vengono anche definiti “transcodificatori a strati incrociati” (Cross-Layer Transcoders). Ogni feature rappresenta un concetto specifico; ad esempio un’emozione, una parola chiave o un’intenzione del testo. A differenza dei neuroni originali, spesso ambigui, le feature sono attive solo in situazioni precise; questo le rende più leggibili.

I grafi di attribuzione servono per capire come queste feature si influenzano a vicenda. Mostrano i passaggi intermedi che portano da un input a un output; aiutano a vedere, letteralmente, il percorso seguito dal modello per arrivare alla risposta. Questo permette di osservare come si sviluppano le idee all’interno del sistema; come un concetto iniziale si trasforma in una frase compiuta.
Tuttavia, è bene chiarire un punto. Questa tecnica non spiega tutto ciò che accade nel modello originale; si tratta di una semplificazione. Ma fornisce ipotesi utili; queste ipotesi possono essere testate, ad esempio bloccando temporaneamente una feature per vedere se cambia il risultato. In questo modo, è possibile controllare se un meccanismo è realmente coinvolto nella generazione del testo. Questo rende il metodo prezioso, anche se non perfetto, per migliorare i modelli che saranno creati in futuro.
Anthropic : scoperte chiave nel modello Claude 3.5 Haiku
Gli studi condotti da Anthropic su Claude 3.5 Haiku hanno evidenziato comportamenti avanzati, spesso raffinati, e in alcuni casi del tutto inattesi. Un esempio particolarmente significativo riguarda la composizione poetica. In questo contesto, il modello non genera versi parola per parola in modo sequenziale. Al contrario, pianifica anticipatamente la conclusione del verso; seleziona parole in rima prima ancora di iniziare la costruzione della frase. Successivamente, struttura l’intero verso attorno a quella rima scelta, con coerenza e continuità semantica. Questo comportamento evidenzia una forma di pianificazione a lungo termine; Claude sembra considerare il contenuto futuro prima di scrivere quello presente.

Un’altra scoperta rilevante riguarda l’esistenza di circuiti multilingue condivisi; il modello possiede componenti che operano senza dipendere da una lingua specifica. Questa caratteristica suggerisce l’esistenza di uno spazio concettuale comune; uno spazio nel quale le idee si formano prima di essere espresse in una lingua. Le stesse strutture semantiche attivano risposte simili in lingue differenti; questo implica una rappresentazione astratta e generalizzata del significato.
Esperimenti condotti in situazioni controllate hanno anche mostrato un aspetto critico del comportamento del modello; Claude può costruire ragionamenti plausibili ma logicamente errati. Questo accade, in particolare, quando riceve suggerimenti sbagliati nel corso della conversazione. In questi casi, tende a seguire la coerenza stilistica della conversazione piuttosto che verificarne la validità logica; privilegia la forma rispetto al contenuto. Questo comportamento solleva interrogativi sulla robustezza del ragionamento e sulla necessità di meccanismi di verifica interni più affidabili.
Come Claude affronta il calcolo matematico
Claude non segue le regole tradizionali dell’aritmetica umana; non scrive in colonna; non memorizza semplici tabelline. Il modello esegue somme usando percorsi paralleli. Uno stima il risultato; l’altro lo rifinisce. In un esempio, per sommare 36 e 59, Claude attiva feature che codificano una somma approssimativa; contemporaneamente attiva un secondo circuito per ottenere il numero preciso. I due percorsi convergono sull’output finale.

Questo processo avviene tutto “nella testa” del modello; senza scrivere alcun passaggio intermedio. Non esiste una sequenza fissa; la direzione cambia in base al contesto. Se si altera un nodo attivo legato a un numero, Claude adatta il risultato; ciò conferma la presenza di una rappresentazione numerica interna flessibile.
Inoltre, questi circuiti sono riutilizzabili: Claude impiega gli stessi meccanismi anche in altri contesti quantitativi; per esempio nel confronto tra valori o nella costruzione di grafici descrittivi. Pur non essendo un calcolatore classico, Claude sviluppa strategie efficienti.
Allucinazioni nei modelli linguistici: cosa sono e perché accadono
Molto spesso può capitare che il modello AI dia delle risposte errate o senza senso: è la cosidetta allucinazione AI. Nei primi modelli di ChatGPT era molto comune rispetto oggi. Un’allucinazione, nel contesto dell’IA, è una risposta sbagliata ma plausibile; è prodotta con convinzione, anche in assenza di prove nei dati.
Claude può allucinare quando attiva feature scorrelate dal contesto. Alcuni circuiti promuovono risposte anche in assenza di conoscenza; ciò accade, ad esempio, quando un’entità è percepita come nota, ma non lo è. In questi casi, il modello genera contenuti errati ma sintatticamente corretti.
L’origine di molte allucinazioni risiede in shortcut interni; percorsi brevi che aggirano la logica, puntando alla coerenza più che alla verità. Anche l’addestramento ha un ruolo: se i dati sono ambigui o contraddittori, il modello apprende strategie inaffidabili.
Gli strumenti di attribution graph rivelano questi processi; mostrano come certi feature spingano verso risposte ingannevoli. Inibendo questi nodi, è possibile ridurre il fenomeno; ma non eliminarlo del tutto. Capire le cause delle allucinazioni AI aiuta a migliorare i filtri, ma anche a progettare architetture più robuste.
Ricerca di Anthropic: conclusioni
La ricerca di Anthropic sulla tracciatura dei circuiti nei modelli linguistici apre scenari promettenti per l’interpretabilità dell’intelligenza artificiale, fondamentale per garantire la fiducia e l’affidabilità di tali tecnologie. Tuttavia, l’attuale metodologia possiede limitazioni intrinseche, come la complessità gestionale e l’incapacità di catturare la totalità del ragionamento del modello.
Nonostante ciò, l’approccio dei grafi di attribuzione rappresenta una pietra miliare per lo sviluppo di tecniche più avanzate e scalabili. Con il progredire degli strumenti interpretativi e il loro perfezionamento, sarà possibile ottenere una comprensione sempre più dettagliata del funzionamento interno dei modelli, rendendo più sicuro e responsabile l’impiego dell’IA nei contesti più critici e complessi.
Se vuoi approfondire puoi leggere tutto lo studio condotto da Anthropic a questo link.