In un nuovo annuncio di Google, il vicepresidente Prabhakar Raghavan ha segnalato che le app conversazionali Gemini (ex Bard) e Gemini Advanced hanno sospeso temporaneamente la generazione di immagini in cui sono presenti delle persone, a causa di inesattezze storiche e rappresentazioni etniche e di genere inesatte nelle immagini generate.
Questa decisione è stata presa dopo che diversi utenti sui social media hanno evidenziato come Gemini producesse immagini di figure storiche di genere e con tratti etnici diversi da quelli reali, sollevando preoccupazioni riguardo alla potenziale distorsione della realtà storica da parte dell’intelligenza artificiale.
Google ha riconosciuto l’errore di Gemini
Lanciata tre settimane fa, la funzionalità è stata costruita sul modello IA Imagen 2 ed integrata in Gemini.
“È chiaro che questa funzionalità ha mancato il bersaglio. Alcune delle immagini generate sono imprecise o addirittura offensive. Siamo grati per il feedback degli utenti e ci dispiace che la funzionalità non abbia funzionato bene. Abbiamo riconosciuto l’errore e abbiamo temporaneamente sospeso la generazione delle immagini di persone in Gemini mentre lavoriamo su una versione migliorata.” ha dichiarato Prabhakar Raghavan.
Di conseguenza, la generazione dell’immagine di persone in Gemini è stata sospesa per miglioramenti, con piani di test approfonditi prima della riattivazione. La sospensione da parte di Google è stata tempestiva probabilmente perché sui social cominciavano a girare accuse di “razzismo” e numerose foto di personaggi storici con evidenti errori di etnia. In particolare, le segnalazioni indicavano un numero troppo elevato di immagini generate con persone di colore.
Durante lo sviluppo di questa funzionalità in Gemini, Google si è concentrata sulla sua ottimizzazione per evitare alcuni errori riscontrati in passato con la tecnologia di generazione di immagini. Questo includeva la necessità di prevenire la creazione di immagini violente o sessualmente esplicite, così come la produzione di rappresentazioni imprecise di persone reali.
Generatore di immagini fallace
Google ha affermato che il modello di immagini è stato istruito per garantire a ogni persona del mondo che la generazione di immagini fosse altamente inclusiva. Ad esempio, se richiedevi un immagine con “molte persone che passeggiano”, il generatore era istruito per restituire una varietà di rappresentazioni etniche umane.
Purtroppo questo focus inclusivo, veniva applicato anche sui personaggi storici o attuali personaggi pubblici noti. Quindi era possibile che alla richiesta di un immagine di Napoleone sul cavallo, venisse rappresentato Napoleone con un altro colore della pelle rispetto l’originale. Un risultato che non rispetta ciò che è stato richiesto.
Il generatore di immagini di Gemini falliva anche quando ad una richiesta come “un insegnante di colore in un’aula” in alcune occasioni poteva essere rappresentata invece un’insegnante non di colore o al contrario alla richiesta, “un veterinario di etnia caucasica che passeggia con il cane” in alcune occasioni poteva essere rappresentato un veterinario di colore.
Altri errori venivano fatti anche sul sesso, per esempio alcuni hanno riportato che alla richiesta di una immagine del Papa venisse generata un’immagine di un Papa donna.
Il generatore di immagini di Copilot potenziato da DALL-E 3 non sembra essere affetto da queste problematiche, ecco come Copilot genera il prompt “Albert Einstein stringe la mano a Freddy Mercury“
Conclusione
L’incidente evidenzia le sfide nello sviluppo dell’intelligenza artificiale, in particolare nella generazione di contenuti sensibili come immagini di persone, personaggi storici o pubblici. Raghavan ha dichiarato che sono in corso sforzi per migliorare la tecnologia dell’intelligenza artificiale in modo responsabile, riconoscendo che gli errori fanno parte del processo di apprendimento.
Al tempo stesso, Raghavan fa notare che nonostante gli sforzi, i modelli IA potrebbero non essere sempre affidabili, soprattutto quando si tratta di generare immagini o testo su eventi attuali, notizie in evoluzione o argomenti scottanti. Le allucinazioni IA sono una sfida nota per tutti i modelli IA sia che si tratti di modelli per la generazione di testo che di immagine. Questo è risaputo e chi produce LLM (large language models) deve costantemente lavorare per limitare questo aspetto.