OpenAI e gpt Images 2.0: finisce l'era del testo storpiato

Fino a qualche anno fa il testo nelle immagini era il tallone d’Achille di qualsiasi modello diffusivo. Ci sono stati decisi miglioramenti con i modelli Flux di Black Forest prima e con Nano Banana poi. Oggi OpenAI ha fatto un altro salto deciso per chiudere quella finestra: ChatGPT Images 2.0, lanciato ufficialmente ieri, non si limita a produrre immagini esteticamente gradevoli.

Il nuovo sistema, basato sul modello denominato gpt-image-2, dimostra una capacità inedita di gestire testo all’interno delle composizioni visive, in più lingue e con una fedeltà raramente visibile in altri modelli diffusivi.

Alcuni benchmark indipendenti già lo piazzano al primo posto nelle classifiche globali, sia per la generazione sia per l’editing di immagini, nella categoria creativa come in quella più tecnica degli elementi UI. Per chi usa strumenti visivi nel lavoro, tra designer, marketer e comunicatori, questo aggiornamento merita attenzione per ciò che cambia nella pratica quotidiana.

ChatGPT Images 2: il testo nelle immagini, un problema risolvibile

Per capire cosa rende Images 2.0 diverso, vale la pena fare un passo indietro sulla tecnologia. I modelli diffusivi, come DALL-E nelle sue prime versioni, apprendono a ricostruire immagini partendo dal rumore statistico. In questo processo, il testo scritto occupa una porzione minima di pixel rispetto al resto della composizione: il modello lo tratta come un elemento marginale e lo genera di conseguenza, spesso con caratteri deformati o parole inesistenti.

Il problema era architetturale. OpenAI non ha rivelato pubblicamente quale architettura stia alla base di Images 2.0, ma ha confermato che il sistema integra capacità di ragionamento, definite “thinking capabilities”.

Queste capacità consentono al modello di pianificare la struttura visiva prima di generarla, ridurre gli errori di output e, nei piani a pagamento, accedere al web per integrare informazioni mancanti nel prompt. Il risultato pratico è che oggi il sistema gestisce correttamente testo in giapponese, coreano, cinese, hindi e bengali, oltre all’inglese, una discontinuità netta rispetto a qualsiasi versione precedente.

Elementi come icone, interfacce UI, composizioni dense e testo di piccole dimensioni, storicamente i punti di rottura di ogni generatore visivo, ora vengono prodotti con un livello di dettaglio che rende molti risultati direttamente utilizzabili senza revisioni manuali.

Risoluzione, batch e flussi di lavoro

Sul piano operativo, Images 2.0 porta alcune novità che incidono direttamente sul lavoro professionale. La risoluzione massima sale fino a 2.000 pixel di larghezza, con supporto a nuovi formati d’aspetto, inclusi rapporti fino a 3:1, che aprono a utilizzi come infografiche orizzontali e banner.

Da un singolo prompt è possibile generare fino a 10 immagini in una sola richiesta, con la possibilità di mantenere uno stile visivo coerente tra tutte le varianti o, in alternativa, di esplorarne di diversi. Questo elimina uno dei passaggi più ripetitivi nel flusso di lavoro creativo assistito dall’IA, ovvero quello di riformulare continuamente le istruzioni per ottenere varianti. Un’efficienza apprezzabile, soprattutto per chi gestisce campagne con molti asset visivi.

Se si attivano le modalità “thinking” o “pro”, disponibili nei piani a pagamento, il modello può interrogare il web per colmare lacune informative nel prompt. In una demo, gli ingegneri di OpenAI hanno chiesto al sistema di analizzare uno store e-commerce e generare un annuncio pubblicitario basato sui prodotti effettivamente disponibili. Il dataset interno del modello ha un cutoff a dicembre 2025, quindi per prompt che richiedono informazioni più recenti, l’accesso al web diventa rilevante.

ChatGPT Images 2.0 è disponibile per tutti i piani, compresi quelli gratuiti. I piani a pagamento sbloccano output più avanzati. L’API gpt-image-2 è già accessibile agli sviluppatori, con una struttura di prezzi che varia in base alla qualità e alla risoluzione:

Qualità	Risoluzione base	Costo per immagine
Low	1024 × 1024 px	~$0,006
Medium	1024 × 1024 px	~$0,053
High	1024 × 1024 px	~$0,211

Nano Banana Pro vs ChatGPT Images 2.0

Qui sotto il test su Nano Banana 2 e di seguito su ChatGPT Images 2.0: su entrambi è stato usato il prompt — crea un’infografica in formato 16:9 che mostri come sostituire un copertone bucato di una bici da corsa. A dire il vero, il risultato di ChatGPT Images 2.0 non ci convince molto rispetto quello di Nano Banana 2: contiene alcuni errori di testo (“inserti” invece di “inserisci”) e alcune immagini non sono molto chiare come quella che mostra l’estrazione della camera d’aria.

Un aggiornamento solido

Images 2.0 è un aggiornamento importante che migliora rendering del testo, composizioni complesse e supporto multilingue: i risultati nei benchmark di terze parti confermano un avanzamento tangibile rispetto alla concorrenza.

Se usi già ChatGPT per lavoro e hai un piano a pagamento, vale la pena testare Images 2.0 su casi d’uso precisi, tra cui materiali di marketing, infografiche e illustrazioni con testo integrato. Se sei invece sul piano gratuito, puoi comunque accedere alla funzione con alcune limitazioni sugli output più avanzati.

In ogni caso, questo rilascio sposta il punto di riferimento del settore su cosa sia oggi lecito aspettarsi da un generatore visivo integrato in un assistente conversazionale. La distanza dal vecchio DALL-E, anche solo di due anni fa, dice molto su quanto velocemente stia cambiando questo segmento.

Ultimi Articoli

ChatGPT Images 2.0: OpenAI rilancia la generazione visiva

ChatGPT Images 2: il testo nelle immagini, un problema risolvibile

Risoluzione, batch e flussi di lavoro

Nano Banana Pro vs ChatGPT Images 2.0

Un aggiornamento solido