GPT-5.5 è il nuovo modello di punta di OpenAI e si posiziona come successore diretto di GPT-5.4, presentato circa due mesi prima. All’interno della gamma attuale dell’azienda, occupa il vertice insieme alla variante GPT-5.5 Pro, pensata per ambienti professionali che richiedono massima precisione in ambito legale, scientifico e di analisi dati.
OpenAI non lo presenta come un semplice incremento prestazionale; l’idea centrale è costruire un modello capace di gestire compiti articolati e multi-fase, quelli che in gergo vengono definiti “messy workloads”. Greg Brockman, presidente di OpenAI, ha sintetizzato così la filosofia del lancio: il modello può “analizzare un problema non chiaro e determinare da solo cosa deve accadere dopo.”
Rispetto al predecessore, GPT-5.5 mantiene la stessa latenza per token ma raggiunge un livello di ragionamento nettamente superiore, consumando in media meno token per completare le stesse operazioni, soprattutto in Codex, l’agente di programmazione di OpenAI. È pensato in primo luogo per sviluppatori, ricercatori e team aziendali con flussi di lavoro complessi, ma si rivela utile anche a chi cerca un assistente capace di portare avanti un progetto con meno supervisione.
Progettato per ragionare, non solo per rispondere
Il cuore di GPT-5.5 è un raffinamento profondo del modo in cui il modello pianifica ed esegue compiti complessi. Uno dei miglioramenti chiave riguarda l’allocazione dei carichi di lavoro: algoritmi euristici, in parte scritti proprio da Codex con GPT-5.5, hanno permesso di bilanciare meglio le richieste sulle GPU, aumentando la velocità di generazione token di oltre il 20%. Sul piano funzionale, il modello è stato addestrato per gestire ambiguità e iterazioni.
La caratteristica tecnica più rilevante di GPT-5.5 è la sua capacità di gestire compiti a più fasi in modo autonomo. Il modello sa pianificare, selezionare gli strumenti giusti, verificare i propri risultati e continuare a lavorare anche in presenza di ambiguità, senza attendere il prossimo input.
Questa capacità si esprime concretamente nell’integrazione con Codex, dove GPT-5.5 può operare in ambienti informatici, navigare interfacce, eseguire comandi da terminale e gestire file, comportandosi più come un assistente esecutivo che come un chatbot tradizionale. In Codex è disponibile anche una modalità “Fast mode”, che genera token 1,5 volte più velocemente rispetto al predecessore, a fronte di un costo 2,5 volte superiore.
Il contesto supportato arriva a 400.000 token in Codex (piani Education ed Enterprise) e a 1 milione di token via API. Sul piano della sicurezza, OpenAI ha classificato GPT-5.5 nella categoria “High” della propria scala interna di rischio cyber, un livello sotto “Critical”, e ha introdotto classificatori più severi per intercettare richieste problematiche in ambito cybersecurity e biologia. Il modello è stato sottoposto a red-teaming da parte di esperti esterni e testato con quasi 200 partner early-access prima del rilascio. In termini di velocità pura, la generazione risulta circa il 20% più rapida rispetto a GPT-5.4.
I benchmark raccontano un avanzamento concreto, ma con qualche ombra
I risultati nei benchmark ufficiali delineano un quadro complessivamente positivo, con aree di eccellenza netta e altre dove la concorrenza, in particolare Anthropic, tiene ancora il passo.
Sul Terminal-Bench 2.0, che misura le capacità di lavoro da riga di comando, GPT-5.5 segna un 82,7%, superando Claude Opus 4.7 (69,4%) e Gemini 3.1 Pro (68,5%). Su SWE-Bench Pro, il benchmark che valuta la risoluzione di problemi reali su GitHub, il risultato è 58,6%, solido ma non al vertice: Claude Opus 4.7 rimane avanti con 64,3%.
Sul fronte della produttività professionale, GDPval segna 84,9% su 44 professioni, mentre OSWorld-Verified raggiunge 78,7%, superando la baseline umana fissata al 72,4%. Da segnalare anche i risultati su Tau2-bench Telecom (98,0%), CyberGym (81,8%) e BixBench (80,5%), dove il modello supera tutti i competitor con punteggi pubblicati.

Sul fronte matematico, FrontierMath Tier 4 (i problemi più difficili) segna 35,4% contro il 27,1% di GPT-5.4, un avanzamento concreto. Sui contesti lunghi, il modello eccelle su finestre da 256K a 1 milione di token, dove GPT-5.4 cedeva nettamente. Dan Shipper, CEO di Every, lo ha definito “il primo modello di coding con vera chiarezza concettuale”: in un test ha replicato una riscrittura che un ingegnere aveva prodotto dopo giorni di debugging, e GPT-5.4 non ci era riuscito.
GPT-5.5: prezzi più alti
GPT-5.5 è disponibile da subito per chi ha un abbonamento ChatGPT Plus, Pro, Business ed Enterprise, sia su ChatGPT sia su Codex. La variante GPT-5.5 Pro, orientata a massima precisione e ragionamento complesso, è riservata ai piani Pro, Business ed Enterprise. L’accesso tramite API è stato confermato già dal 24 aprile, in anticipo rispetto alle previsioni iniziali.
Sul fronte dei costi, il modello base via API è prezzato a $5 per milione di token in input e $30 per milione di token in output, il doppio rispetto ai $2,5 e $15 di GPT-5.4. La versione Pro sale a $30 e $180 per milione di token. OpenAI giustifica l’aumento sottolineando la maggiore efficienza: GPT-5.5 completa le stesse operazioni usando meno token, con l’effetto teorico di bilanciare il costo finale. Il Fast mode in Codex costa 2,5 volte di più rispetto alla modalità standard, ma genera token 1,5 volte più velocemente.
| Modello | Input (per 1M token) | Output (per 1M token) |
|---|---|---|
| DeepSeek-V4 Flash | $0.07 | $0.42 |
| Grok 4.1 Fast (xAI) | $0.20 | $0.50 |
| MiniMax M2.5 | $0.15 | $1.20 |
| MiniMax M2.5-Lightning | $0.30 | $2.40 |
| Qwen3.6 Plus | $0.32 | $1.95 |
| Kimi K2.6 | $0.60 | $2.80 |
| GLM-5.1 (Z.ai) | $0.95 | $3.15 |
| DeepSeek-V4 Pro | $1.74 | $3.48 |
| Grok 4.2 (xAI) | $2.00 | $6.00 |
| Gemini 3.1 Pro (Google) | $2.00 | $12.00 |
| Claude Sonnet 4.6 (Anthropic) | $3.00 | $15.00 |
| Claude Opus 4.7 (Anthropic) | $5.00 | $25.00 |
| GPT-5.5 | $5.00 | $30.00 |
| GPT-5.5 Pro | $30.00 | $180.00 |
A titolo di confronto, modelli come il nuovo DeepSeek v4 o Minimax M2.7 hanno prezzi nettamente inferiori, ma si rivolgono a casi d’uso diversi e meno esigenti. Se stai valutando di integrare GPT-5.5 in un flusso di lavoro esistente, la convenienza reale dipenderà molto dal volume di token che consumi oggi. Vale la pena stimare il tuo utilizzo attuale prima di trarre conclusioni sui costi.
Un modello maturo, ma non per tutti i casi d’uso
GPT-5.5 si afferma come uno strumento solido per chi lavora con l’AI in modo professionale, con maggiore autonomia operativa, meno supervisione richiesta e risultati più consistenti su compiti articolati. Non è un modello per tutti: i prezzi lo rendono adatto principalmente a sviluppatori, team di ricerca e aziende che già integrano AI nei propri flussi operativi.
Se lavori in ambito engineering, analisi dati o ricerca scientifica, GPT-5.5, e in particolare la versione Pro, offre capacità che i modelli precedenti faticavano a raggiungere in modo affidabile. I benchmark mostrano che su terminale, produttività avanzata e contesti lunghi si posiziona al primo posto. Su altri scenari, come la risoluzione di problemi reali su GitHub, Claude Opus 4.7 rimane avanti.
Il panorama competitivo è quindi equilibrato, e la scelta tra i modelli dipende molto dal caso d’uso specifico. Ciò che GPT-5.5 introduce con chiarezza è una nuova soglia operativa, quella di un modello che non si limita a rispondere a domande, ma che può effettivamente portare a termine un lavoro complesso dall’inizio alla fine, con meno bisogno di essere guidato a ogni passo.













