OpenAI lancia GPT-5.4: ora l’IA sa davvero lavorare al posto nostro
OpenAI ha appena annunciato il nuovo GPT‑5.4, che punta chiaramente al lavoro professionale. Non parliamo di un semplice aggiornamento, ma di un modello che prova a gestire attività complesse dall’inizio alla fine, riducendo il numero di correzioni e giri a vuoto.
Accanto a GPT‑5.4 arriva anche GPT‑5.4 Pro, pensato per chi ha bisogno del massimo in termini di prestazioni su compiti particolarmente impegnativi, sia dentro ChatGPT sia tramite API.
Vuoi ascoltare il riassunto dell’articolo?
Cosa cambia davvero con GPT‑5.4
GPT‑5.4 unisce in un unico modello le capacità di ragionamento, scrittura di codice e gestione di workflow complessi, integrando le funzioni di GPT‑5.3‑Codex con un’attenzione specifica agli strumenti da ufficio.
Il modello è progettato per lavorare meglio con fogli di calcolo, presentazioni e documenti, interagendo con strumenti e ambienti software in modo più coerente e prevedibile, con l’obiettivo di portare a termine lavoro reale con meno interventi manuali.

Lavoro di conoscenza: numeri e casi d’uso
Sul benchmark GDPval, che misura la qualità del lavoro di conoscenza su 44 professioni, GPT‑5.4 raggiunge o supera i professionisti umani nell’83,0% dei confronti, contro il 70,9% di GPT‑5.2.
Nelle attività tipiche di un analista, come la modellazione in foglio di calcolo, GPT‑5.4 ottiene un punteggio medio dell’87,3%, rispetto al 68,4% di GPT‑5.2, mentre nelle presentazioni i valutatori umani preferiscono i risultati di GPT‑5.4 nel 68,0% dei casi per impaginazione, varietà visiva e uso delle immagini.
OpenAI spinge queste funzioni anche tramite un componente aggiuntivo ChatGPT per Excel per clienti Enterprise e tramite skill dedicate a fogli di calcolo e slide in Codex e API, a conferma del focus sul lavoro d’ufficio strutturato.
Sul fronte dell’accuratezza, GPT‑5.4 riduce ulteriormente allucinazioni ed errori: rispetto a GPT‑5.2, le singole affermazioni risultano 33% meno spesso false e le risposte complete sono 18% meno soggette a contenere inesattezze, un dato importante per chi usa il modello in contesti sensibili.
Uso del computer e visione: verso agenti più autonomi
La novità più rilevante per sviluppatori e aziende è l’introduzione di vere capacità di uso del computer: GPT‑5.4 può controllare applicazioni, siti e sistemi operativi, diventando la base per agenti che eseguono flussi di lavoro complessi.
Il modello arriva a gestire fino a 1 milione di token di contesto, sufficiente per pianificare, eseguire e verificare compiti molto lunghi, mantenendo la memoria di passaggi e strumenti utilizzati.
Con la nuova funzione di tool search, GPT‑5.4 non deve più ricevere tutte le definizioni degli strumenti in ogni richiesta: riceve solo un elenco leggero e recupera i dettagli del singolo tool quando serve, riducendo token, costi e latenza, soprattutto in ecosistemi con molti connettori.
Nei test di uso del PC, i numeri sono significativi: su OSWorld‑Verified, che misura la capacità di muoversi in un ambiente desktop tramite screenshot e input di tastiera/mouse, GPT‑5.4 raggiunge un 75,0% di successo, contro il 47,3% di GPT‑5.2 e sopra il 72,4% medio umano.
Nel browser, su WebArena‑Verified GPT‑5.4 arriva al 67,3% di successo (con interazione via DOM e screenshot) rispetto al 65,4% di GPT‑5.2, mentre su Online‑Mind2Web tocca il 92,8% usando solo screenshot, superando nettamente la modalità agente di ChatGPT Atlas ferma al 70,9%.
Per le immagini, arriva un nuovo livello di dettaglio “original”, che supporta fino a 10,24 milioni di pixel totali o 6000 pixel sul lato maggiore, mentre il livello “high” arriva a 2,56 milioni di pixel o 2048 pixel di lato massimo; nei test interni questo porta a migliori capacità di localizzazione, comprensione dell’immagine e precisione nei clic.

Coding e flussi di sviluppo
Sul fronte programmazione, GPT‑5.4 incorpora le capacità di GPT‑5.3‑Codex e le combina con il miglioramento nel lavoro di conoscenza e nell’uso del computer, risultando più adatto a compiti lunghi in cui il modello usa strumenti, itera e spinge avanti il lavoro con meno interventi umani.
Nei test come SWE‑Bench Pro, GPT‑5.4 eguaglia o supera GPT‑5.3‑Codex, con una latenza inferiore a parità di sforzo di ragionamento, un aspetto importante per chi integra il modello in pipeline di sviluppo.
In Codex, attivando la modalità /fast, GPT‑5.4 raggiunge fino a 1,5x la velocità di generazione dei token rispetto al normale, mantenendo la stessa “intelligenza” ma con risposta più rapida, utile per debug, iterazioni frequenti e mantenimento del flusso di lavoro.
Nei test interni, GPT‑5.4 mostra risultati migliori soprattutto nei compiti frontend complessi, con interfacce più curate sia dal punto di vista estetico sia funzionale rispetto ai modelli precedenti.
Web, strumenti e controllo del modello
Oltre alla tool search, GPT‑5.4 migliora la ricerca sul web in modalità agente: sul benchmark BrowseComp registra un salto di 17 punti percentuali rispetto a GPT‑5.2, mentre GPT‑5.4 Pro raggiunge un nuovo massimo con un 89,3%.
In pratica, GPT‑5.4 Thinking gestisce meglio le domande che richiedono di raccogliere informazioni sparse su più siti, mantenendo una ricerca persistente su più passaggi e sintetizzando le fonti in risposte più chiare e ragionate, soprattutto per le classiche richieste “ago nel pagliaio”.
Sul fronte della controllabilità, GPT‑5.4 Thinking in ChatGPT introduce un preambolo per le richieste lunghe e complesse: il modello espone il proprio piano di lavoro fin dall’inizio, e l’utente può modificare le istruzioni a metà risposta, senza dover ricominciare da capo.
Il modello è progettato per “pensare più a lungo” sui compiti difficili mantenendo una migliore consapevolezza dei passaggi precedenti nella conversazione, così da gestire workflow estesi e prompt articolati senza perdere coerenza.
Questa funzione è già disponibile su chatgpt.com e sull’app Android, mentre arriverà in seguito sull’app iOS.
Disponibilità, piani e prezzi
GPT‑5.4 è in distribuzione graduale su ChatGPT e Codex e risulta già disponibile via API come modello `gpt-5.4`; la variante GPT‑5.4 Pro è accessibile come `gpt-5.4-pro` per chi ha bisogno delle massime prestazioni.
In ChatGPT, GPT‑5.4 Thinking è disponibile da subito per utenti Plus, Team e Pro, andando a sostituire GPT‑5.2 Thinking: quest’ultimo resterà comunque selezionabile per tre mesi nella sezione Legacy Models, per poi essere ritirato il 5 giugno 2026.
OpenAI chiarisce che GPT‑5.4 è il primo modello di ragionamento principale che integra le capacità di coding di GPT‑5.3‑Codex e che viene distribuito in parallelo su ChatGPT, API e Codex, da cui la scelta di un salto diretto di numerazione per semplificare la selezione dei modelli in Codex.
Nel complesso, GPT‑5.4 spinge verso un modello di utilizzo in cui l’IA non fornisce solo risposte testuali, ma diventa un collaboratore operativo capace di muoversi tra strumenti, documenti e applicazioni: un passo avanti interessante, che però richiederà tempo e sperimentazione per capire quanto potrà davvero alleggerire il carico di lavoro quotidiano senza introdurre nuove dipendenze o rischi.
Source link





