I chatbot IA addestrati per conversare in modo naturale e compiere varie attività linguistiche celano un segreto. Nel dare le risposte alle nostre domande pensano fondamentalmente in inglese, anche quando elaborano altre lingue. A questa conclusione sono giunti i ricercatori del Swiss Federal Institute of Technology di Lausanne dopo aver analizzato i modelli Llama-2 di Meta. L’obiettivo della ricerca era di capire se l’inglese funge da lingua pivot interna durante l’elaborazione di input non inglesi.
Chatbot IA addestrati con dati prevalentemente in inglese
La ricerca si è svolta sui modelli Llama-2 perché sono modelli open source. Nonostante il loro addestramento su dati prevalentemente in inglese, i modelli Llama-2 sono considerati multilingue. Inoltre, mostrano prestazioni notevoli anche in lingue con meno risorse. La ricerca ha utilizzato prompt non inglesi, accuratamente costruiti per rivelare le dinamiche interne del modello.
I modelli LLM sono composti da livelli di elaborazione. Questi traducono le richieste scritte in token e cercano quindi di contestualizzare ciascun token per fornire una risposta. “Ciascuno di questi livelli fa qualcosa all’input, la richiesta originale che gli viene data” dice Veselovsky il coordinatore della ricerca “Volevamo vedere.. effettivamente i livelli interni stanno elaborando in inglese?“
Le domande …
I ricercatori hanno formulato tre tipi di richieste in cinese, francese, tedesco e russo. Con la prima richiesta chiedevano di ripetere la parola che gli era stata data. La seconda chiedeva di tradurre da una lingua non inglese in un’altra lingua. Nella terza si doveva completare una frase, come “Un ___ viene usato per giocare a sport come calcio e pallacanestro“.
I ricercatori hanno rintracciato i processi attraverso cui i LLM hanno risposto a ciascuna richiesta. Hanno scoperto che il percorso di elaborazione attraverso i livelli passava quasi sempre attraverso ciò che chiamano lo spazio inglese.
… e il metodo utilizzato
Lo studio utilizza la tecnica “logit lens“, per mappare le rappresentazioni latenti. Si riferisce a una sorta di “lente” o “prospettiva”. Questa tecnica si applica per comprendere meglio come il modello prende decisioni o genera risposte. Tracciando le rappresentazioni intermedie degli input, lo studio ha identificato tre fasi distinte. Una prima fase lontana dalle rappresentazioni dei token di output; una fase intermedia dove i token in inglese hanno una probabilità più alta rispetto alla lingua di input. Infine, una fase finale che si sposta verso una regione specifica della lingua di input.
I risultati suggeriscono che, nella fase intermedia, i transformer operano in uno “spazio concettuale” astratto che è parzialmente ortogonale a uno “spazio token” specifico per la lingua, raggiunto solo nell’ultima fase. Questa interpretazione implica che la prossimità delle rappresentazioni latenti ai token inglesi osservata attraverso il “logit lens” deriva da un bias inglese nella fase intermedia, piuttosto che da una traduzione preliminare in inglese.
La ragione principale dietro questo fenomeno risiede nei set di dati utilizzati per addestrare questi modelli. Gran parte dei dati di addestramento proviene da risorse online scritte principalmente in inglese. Di conseguenza, l’inglese diventa la “lingua madre“ di questi modelli LLM quando assimilano le informazioni, imparano a ragionare ed elaborano il linguaggio naturale.
L’analisi delle rappresentazioni latenti rivela che i modelli Llama-2 tendono a favorire l’inglese rispetto ad altre lingue nelle fasi intermedie, suggerendo una possibile preferenza verso l’inglese come lingua pivot interna.
Le implicazioni del risultato e la sfida dell’addestramento multilingue dei chatbot IA
Questa scoperta solleva alcune implicazioni e potenziali problemi.
Innanzitutto, potrebbe portare a errori di traduzione o fraintendimenti linguistici. Il chatbot IA sta praticamente traducendo dall’inglese alla lingua di destinazione, invece di elaborare direttamente quella lingua. Inoltre, potrebbe introdurre bias culturali o pregiudizi inconsci derivanti dalla predominanza dei dati di addestramento in inglese. Ciò potrebbe influenzare le risposte e le prestazioni dei modelli in contesti culturali o linguistici diversi da quelli anglosassoni.
“Il dominio dell’inglese riduce la diversità. Se l’inglese è la lingua principale in cui i sistemi elaborano le query, è probabile che perderemo concetti e sfumature che possono essere apprezzati solo in altre lingue.” afferma Carissa Véliz dell’Università di Oxford.
I ricercatori suggeriscono che i modelli di IA dovrebbero essere addestrati in modo più equilibrato su dati provenienti da diverse lingue e culture per affrontare questo problema. Ciò potrebbe aiutare a ridurre il “pensiero in inglese” dei modelli e a migliorare le loro capacità di elaborazione di altre lingue in modo più autentico e accurato.
Conclusioni
La ricerca sull’uso dell’inglese come lingua pivot interna nei LLM multilingue è fondamentale per comprendere come funzionano i modelli alla base dei chatbot IA. Questi modelli devono garantire che siano equi e privi di pregiudizi.
Questa ricerca aiuta a comprendere meglio i limiti attuali dei chatbot IA, ma anche le aree in cui è necessario migliorare. Affrontando il problema del “pensiero in inglese“, si spera di creare modelli IA più inclusivi, accurati e capaci di operare in modo efficace in contesti linguistici e culturali diversi.
Mentre l’IA continua a evolversi, la capacità di comprendere ed elaborare lingue multiple in modo realmente multilingue diventa fondamentale per poter usufruire del pieno potenziale di questa tecnologia. Si deve garantire che sia davvero inclusiva e accessibile a tutte le culture e comunità linguistiche del mondo.