OpenAI ha rilasciato GPT-5.4 poche ore fa, posizionandolo come il proprio modello più capace ed efficiente per il lavoro professionale. Il lancio avviene in un momento di rapida espansione della gamma: appena due giorni prima era stato presentato GPT-5.3 Instant, pensato per migliorare le conversazioni quotidiane, mentre GPT-5.4 occupa la fascia alta, con un focus dichiarato su ragionamento complesso, coding avanzato e flussi di lavoro agentici.
Con GPT-5.4, OpenAI prova anche a recuperare terreno in un momento delicato sul piano dell’immagine pubblica e della fidelizzazione. Il lancio arriva infatti dopo giorni di forti critiche online seguite all’annuncio di un accordo con il Dipartimento della Difesa degli Stati Uniti, una scelta che ha riacceso il dibattito sull’impiego dei modelli AI in ambiti militari e di sorveglianza. Sui social, tra X, Reddit e Instagram, si è diffusa una reazione molto visibile fatta di messaggi di abbandono della piattaforma e di sostegno ai concorrenti, con Claude trasformato da molti in un riferimento simbolico di questa protesta digitale. In questo contesto, GPT-5.4 è una risposta urgente e strategica con cui OpenAI tenta di riportare l’attenzione su prestazioni, affidabilità e casi d’uso professionali.
Rispetto al predecessore GPT-5.2, il salto tecnico è notevole: il modello assorbe le capacità di coding di GPT-5.3-Codex, integra nativamente la computer use — ossia la capacità che consente al modello di interagire con software e browser tramite mouse e tastiera — e migliora le prestazioni su task professionali che spaziano dai fogli di calcolo alle presentazioni, fino ai workflow multi-step con minima supervisione umana.
GPT-5.4 è disponibile in due varianti: GPT-5.4 Thinking per gli abbonati ChatGPT Plus, Team e Pro, e GPT-5.4 Pro per chi necessita della massima potenza computazionale su task complessi. Si rivolge principalmente a sviluppatori, team aziendali e professionisti che gestiscono analisi finanziarie, automazione di processi e ricerca web avanzata.
Architettura e innovazioni tecnologiche chiave
GPT-5.4 nasce dalla fusione di due filoni di sviluppo che OpenAI aveva finora tenuto separati: il ragionamento generale di GPT-5.2 e le capacità di coding di GPT-5.3-Codex. Il risultato è un modello in cui ragionamento e coding coesistono allo stesso livello, senza che l’uno penalizzi l’altro.
Altra novità di rilievo è il tool search. Invece di caricare tutte le definizioni degli strumenti disponibili nel prompt — un approccio che può aggiungere decine di migliaia di token a ogni richiesta — il modello riceve una lista leggera e recupera le definizioni complete solo quando necessario. Questa configurazione riduce l’utilizzo totale di token di circa il 40% mantenendo la stessa accuratezza.
La finestra di contesto arriva a 1 milione di token nell’API, allineandosi con le offerte di Google e Anthropic per i workflow di lunga durata. GPT-5.4 è ora anche il modello di ragionamento più efficiente di OpenAI: usa meno token rispetto a GPT-5.2 per risolvere gli stessi problemi, con impatto diretto sui costi API e sulla velocità di risposta.
Computer use: requisiti, compatibilità e limiti
GPT-5.4 introduce anche la funzionalità Computer use, disponibile esclusivamente tramite API e Codex — non è accessibile direttamente dall’interfaccia di ChatGPT. Per usare computer use, serve quindi un piano con accesso all’API e la capacità di integrare il modello in un ambiente di sviluppo o in un agente personalizzato.
Il modello opera attraverso screenshot e comandi mouse/tastiera, un approccio che lo rende teoricamente indipendente dal sistema operativo. Per chi lavora con browser e applicazioni web, il percorso preferito passa da librerie come Playwright, che permettono di automatizzare sessioni di navigazione in modo strutturato e ripetibile.
Il comportamento di computer use è configurabile tramite developer messages: chi sviluppa può adattare le azioni agli specifici casi d’uso e definire custom confirmation policies per stabilire quale livello di rischio tollerare nelle operazioni automatizzate. Questo aspetto è particolarmente rilevante in ambienti enterprise, dove alcune azioni — come l’invio di email o la modifica di file condivisi — richiedono una soglia di conferma più alta.
GPT-5.4 utilizza una modalità specifica di “native computer use” che ottimizza drasticamente l’uso dei token per la visione dello schermo che gli permette di raggiungere un sorprendente 75% di successo su OSWorld-Verified (raddoppiando il 47,3% del predecessore GPT 5.2). Fino a ieri il valore più alto era detenuto da Claude Opus 4.6 con il 72,5%.
Tuttavia, il 75% di successo su OSWorld-Verified significa che il modello fallisce ancora un’operazione su quattro in ambienti desktop e l’output massimo per richiesta è ancora limitato a 128.000 token, invariato rispetto ai modelli precedenti. Quindi la gestione degli errori in sessioni lunghe richiede ancora supervisione umana soprattutto in workflow molto estesi.
Benchmark e prestazioni: i numeri che contano
Su GDPval, il benchmark che misura la capacità degli agenti di produrre output professionali attraverso 44 professioni nei 9 settori principali del PIL americano, GPT-5.4 raggiunge l’83% di confronti vinti o pareggiati con professionisti del settore, rispetto al 70,9% di GPT-5.2. Su WebArena-Verified registra il 67,3% di successo nella navigazione browser, mentre su Online-Mind2Web sale al 92,8% usando solo osservazioni basate su screenshot.

Sul piano del coding, GPT-5.4 eguaglia o supera GPT-5.3-Codex su SWE-Bench Pro con il 57,7% contro il 56,8%, mantenendo una latenza inferiore. Da sottolineare è anche il progresso sulla riduzione delle allucinazioni AI: i singoli claim sono il 33% meno probabili di essere falsi e le risposte complete sono il 18% meno soggette a errori rispetto a GPT-5.2.
Sul benchmark BigLaw per documenti legali, il modello ha ottenuto il 91% secondo il responsabile della ricerca applicata di Harvey.
GPT-5.4: disponibilità, prezzi e panorama competitivo
GPT-5.4 è disponibile da oggi in ChatGPT come GPT-5.4 Thinking per gli abbonati Plus, Team e Pro. Chi ha un piano Enterprise o Edu può attivare l’accesso anticipato tramite le impostazioni admin. GPT-5.4 Pro è riservato ai piani Pro ed Enterprise.
GPT-5.2 Thinking rimarrà disponibile per tre mesi nella sezione Legacy Models, per poi essere ritirato il 5 giugno 2026. Anche chi usa ChatGPT gratuitamente potrà accedere al modello solo quando le proprie richieste vengono instradate automaticamente.
Da tenere presente: le richieste che superano i 272.000 token di input vengono fatturate al doppio della tariffa standard.
Sul piano competitivo, GPT-5.4 si posiziona nella fascia media-alta del mercato. Confrontandolo con Claude Sonnet 4.6 di Anthropic, risulta leggermente più economico in input. Claude Opus 4.6 rimane nettamente più costoso, mentre modelli come Qwen 3.5 o DeepSeek offrono costi molto inferiori per chi ha esigenze meno intensive.
| Modello | Input (per 1M token) | Output (per 1M token) |
|---|---|---|
| DeepSeek-V3.2 | $0.07 | $0.42 |
| Grok 4.1 Fast (xAI) | $0.20 | $0.50 |
| MiniMax M2.5 | $0.15 | $1.20 |
| MiniMax M2.5-Lightning | $0.30 | $2.40 |
| Qwen3.5 397B A17B | $0.60 | $3.60 |
| Qwen3.5 Plus | $0.40 | $2.40 |
| Kimi K2.5 | $0.60 | $3.00 |
| GLM-5 | $0.80 | $2.56 |
| Gemini 3.1 Pro (Google) | $2.00 | $12.00 |
| GPT-5.4 | $2.50 | $15.00 |
| Claude Sonnet 4.6 (Anthropic) | $3.00 | $15.00 |
| Grok 4 (xAI) | $3.00 | $15.00 |
| Claude Opus 4.6 (Anthropic) | $5.00 | $25.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
OpenAI sostiene che, nonostante il prezzo per token sia più alto rispetto a GPT-5.2, la maggiore efficienza nel ragionamento riduce il numero totale di token necessari, contenendo di fatto il costo reale per task complessi. Nell’ecosistema Codex, il modello introduce nuove Skills — plugin che ottimizzano le capacità agentiche per task specifici come le presentazioni — e la Codex app arriva finalmente anche su Windows, ma non ancora su Linux.
Da GPT-5.2 a GPT-5.4: un upgrade per professionisti
GPT-5.4 è il risultato di una fusione tecnica tra ragionamento, coding e automazione che fino a ieri richiedeva di scegliere tra modelli diversi. Nel complesso, sembra meno interessante come semplice “modello da chat” e molto più convincente come motore per attività professionali. È il tipo di rilascio che ha senso per chi sviluppa agenti, costruisce automazioni, lavora con documenti lunghi, analisi finanziarie, presentazioni o ambienti software dove servono più strumenti coordinati e meno tentativi a vuoto.
Anche i miglioramenti sulla riduzione degli errori e l’efficienza dei token indicano una direzione chiara verso l’uso enterprise in produzione, dove il costo di ogni iterazione fallita è importante. Un prodotto premium ma con benchmark da verificare nel tempo sul campo.











