OpenAI ieri ha presentato o3 e o4 mini, nuovi modelli AI predisposti per il ragionamento che non si accontentano di rispondere al volo. La coppia nasce in una stagione in cui Google, xAi, Meta e altri laboratori stringono i tempi; la competizione si gioca sul terreno della logica e della visione. Da mesi si lavora a modelli che pensano prima di rispondere; o3 e o4‑mini ampliano questa linea perché allungano la catena di ragionamento e, se serve, coinvolgono strumenti esterni (browser e Python).

Ciò produce risposte più caute, analisi più profonde, allucinazioni AI ridotte. Per capire il contesto basta leggere i benchmark pubblici. Su Codeforces, o3 alza il punteggio medio di oltre ottocento punti rispetto a o1 (il primo modello di ragionamento di OpenAI lanciato a settembre 2024) ; su MathVista sfiora il novanta per cento di accuratezza. Il fratello minore, o4‑mini, sacrifica parte della potenza in cambio di costi e latenza ridotti; per chi sviluppa servizi a grande scala è un compromesso appetibile.
Eppure la novità più intrigante è la nuova capacità di integrare le immagini direttamente nel ragionamento e usare strumenti come browser e Python senza supervisione. Questa facoltà costruisce una convergenza fra visione e linguaggio; in un unico flusso il modello esamina pixel e parole, decide che cosa fare, cerca la risposta con lentezza controllata. Con o3 e o4‑mini, ChatGPT diventa una lente di ingrandimento, calcolatrice e motore di ricerca fuse in un’unica entità collaborativa.
I modelli o3 e o4-mini sono già disponibili su ChatGPT per chi ha un abbonamento attivo ai piani Plus, Pro o Team. Non sono accessibili gratuitamente. Inoltre, o4-mini è anche integrato nei flussi di lavoro di Azure OpenAI Service e GitHub Copilot.
o3 e o4 mini, ragionare con le immagini
Se la prima ondata di modelli multimodali si limitava a descrivere ciò che vedeva, o3 e o4‑mini compiono uno scarto ulteriore; ragionano con la vista come fa un team di analisti davanti a un monitor. Spostano lo sguardo, ricentrano, ruotano la scena finché ogni dettaglio torna utile.
OpenAI battezza questa tecnica “thinking with images” e la illustra con un video in cui il modello risolve un labirinto: prima ritaglia le mura superflue, poi ingrandisce l’uscita, infine traccia un percorso rosso che evita i vicoli ciechi.

La stessa routine si adatta a compiti molto diversi; basta fornire un diagramma chimico fotografato al volo; il sistema rileva l’orientamento, ruota la foto di venti gradi, separa le etichette sbavate dalla molecola, quindi spiega le funzioni dei gruppi laterali.
Nei test interni, questa strategia spinge l’accuratezza su MMMU oltre l’ottanta per cento; su CharXiv, un benchmark di figure scientifiche, tocca il novantacinque.
Anche il modello più leggero, o4-mini guadagna il “pensiero visivo”, benché in forma più rapida e sintetica; per progetti didattici o bot di supporto tecnico, quella reattività fa la differenza.
Strumenti agentici e catene di ragionamento
Un altro aspetto chiave riguarda la relazione tra ragionamento interno e strumenti esterni. o3 e o4‑mini non chiedono più aiuto a chi li interroga per decidere quando avviare una ricerca o quando compilare del codice; grazie a un addestramento a rinforzo su ampia scala imparano ad articolare veri e propri piani d’azione a più step.
Immagina di stimare la domanda energetica estiva di una nazione; il modello avvia una chiamata al browser interno, scarica le serie storiche dall’ente statale, scrive uno script Python per normalizzare i dati, costruisce un grafico e genera un breve sommario.
Tutto avviene senza interventi manuali; l’LLM valuta la qualità delle fonti, decide se servono altre ricerche, corregge anomalie e, quando il contesto lo richiede, si concede qualche secondo in più di riflessione.

In pratica, mentre molte versioni precedenti generavano risposte lineari, qui si osserva un intreccio di funzioni. L’algoritmo può usare tool in parallelo; recupera dati dal web mentre elabora codice; manipola immagini mentre compila tabelle; sceglie la sequenza più corta possibile per bilanciare velocità e precisione. Il risultato? Un assistente che offre non solo testo, ma output strutturati corredati da grafici, file e immagini. Lo scenario apre spiragli in finanza, assistenza tecnica, ricerca; e prepara la strada ad agenti software autonomi capaci di muoversi dentro ecosistemi complessi senza supervisione costante.
Questa abilità si sposa con Azure AI Foundry, dove Microsoft ha già incluso i due modelli, consentendo di orchestrare pipeline aziendali o di integrare GitHub Copilot in procedure di deploy continue.
o3 e o4‑mini : conclusione
Il lancio di o3 e o4‑mini mostra dove sta andando l’AI: meno parole, più ragionamenti utili. L’integrazione della vista digitale aiuta a collegare il mondo fisico alla logica. Basta una foto per trasformare un’immagine complessa in un’analisi o in codice funzionante. Il sistema interno sceglie gli strumenti, decide quanto tempo spendere per ogni fase e organizza i risultati.
È interessante notare che OpenAI riporta che in molti casi o3 e o4-mini saranno non solo più potenti dei rispettivi predecessori (o1 e o3-mini), ma anche più convenienti. Ciò significa che l’intelligenza artificiale avanzata diventa più accessibile a un maggior numero di sviluppatori e aziende. Questa è una buona notizia per gli sviluppatori che utilizzano l’API.
La precisione non è ancora perfetta; qualche errore può accadere, ma il miglioramento continua. I modelli leggeri come o4‑mini offrono quasi gli stessi vantaggi di quelli avanzati ma con meno costi e più velocità. La parte più interessante non è solo il risultato; è il modo in cui il modello ci arriva. Guarda, analizza e agisce in piccoli cicli; un processo che somiglia molto al ragionamento umano.