ai generativa

GPT-5.4: la nuova generazione dell’AI per il lavoro professionale



Indirizzo copiato

Il nuovo modello di OpenAI promette prestazioni superiori, maggiore affidabilità e strumenti avanzati per aziende e sviluppatori. Più efficiente, preciso e capace di gestire attività complesse, integra avanzate capacità di ragionamento, programmazione e uso del computer. Disponibile in ChatGPT (Thinking), API e Codex, introduce anche GPT-5.4 Pro per prestazioni massime nelle applicazioni più impegnative

Pubblicato il 6 mar 2026



GPT-5.4

In sintesi

  • OpenAI ha rilasciato GPT-5.4, disponibile in ChatGPT come GPT-5.4 Thinking e nelle API/Codex come GPT-5.4 Pro, pensato per il lavoro professionale e per ridurre le iterazioni utente-sistema.
  • Il modello integra ragionamento, programmazione e agenti con capacità di uso del computer, supporta fino a un milione di token di contesto e introduce il tool search per risparmiare token.
  • Aumenta accuratezza e affidabilità (−33% affermazioni false, −18% errori), ottiene risultati migliori nei benchmark come GDPval e viene rilasciato con misure di sicurezza rafforzate.
Riassunto generato con AI

OpenAI ha annunciato il rilascio di GPT-5.4, il suo nuovo modello di intelligenza artificiale progettato specificamente per il lavoro professionale. La nuova versione è stata resa disponibile in ChatGPT, nell’API e in Codex, segnando un ulteriore passo avanti nello sviluppo dei modelli di frontiera destinati a compiti complessi.

Il modello viene distribuito in ChatGPT con la denominazione GPT-5.4 Thinking, mentre per gli utenti che richiedono le massime prestazioni su attività particolarmente difficili è stata introdotta anche la variante GPT-5.4 Pro, disponibile sia nella piattaforma ChatGPT sia nelle API per sviluppatori.

Secondo OpenAI, GPT-5.4 rappresenta il modello più avanzato e più efficiente finora sviluppato per il lavoro professionale. L’obiettivo è fornire uno strumento capace di gestire attività complesse con maggiore precisione, riducendo il numero di passaggi necessari tra utente e sistema per arrivare al risultato finale.

Video GPT-4


Un modello che unisce ragionamento, coding e automazione

GPT-5.4 integra in un unico sistema i principali progressi ottenuti negli ultimi anni nel campo dell’intelligenza artificiale. Il modello combina infatti capacità avanzate di ragionamento, programmazione e workflow agentici, ovvero processi automatizzati in cui l’IA agisce come un assistente autonomo capace di pianificare e portare a termine compiti articolati.

Tra le innovazioni principali figura l’integrazione delle prestazioni di programmazione già viste in GPT-5.3-Codex, uno dei modelli più apprezzati dagli sviluppatori per la generazione e l’analisi di codice.

Parallelamente, GPT-5.4 migliora il modo in cui l’intelligenza artificiale lavora con strumenti professionali e ambienti software, come fogli di calcolo, documenti e presentazioni. Questo significa che il sistema è in grado di produrre risultati completi – ad esempio report, modelli finanziari o analisi – con un minor numero di interazioni rispetto alle versioni precedenti.

Il risultato, secondo l’azienda, è un modello capace di portare a termine attività professionali reali con maggiore accuratezza ed efficienza, offrendo risposte più aderenti alle richieste dell’utente.


Pianificazione del ragionamento e ricerche web più profonde

Una delle novità più evidenti introdotte in ChatGPT riguarda il modo in cui il modello espone il proprio processo di lavoro. Con GPT-5.4 Thinking, il sistema può presentare un piano iniziale del proprio ragionamento prima di generare la risposta completa.

Questo consente all’utente di intervenire durante l’elaborazione per correggere o affinare la direzione della risposta. In questo modo si riduce la necessità di ripetere richieste o avviare nuove conversazioni per ottenere un risultato più preciso.

Il modello migliora inoltre le ricerche sul web, soprattutto quando si tratta di domande molto specifiche o che richiedono l’analisi di numerose fonti. GPT-5.4 è stato progettato per mantenere meglio il contesto durante conversazioni lunghe o richieste complesse, permettendo risposte più coerenti e pertinenti.

Secondo OpenAI, queste migliorie si traducono in risposte di qualità superiore, prodotte in tempi più rapidi e con maggiore attinenza alle esigenze dell’utente.


Agenti che possono utilizzare il computer

Una delle innovazioni più significative riguarda la capacità del modello di utilizzare direttamente un computer.

In Codex e nelle API, GPT-5.4 è infatti il primo modello generalista di OpenAI dotato di capacità native di uso del computer. Questo significa che gli agenti basati su GPT-5.4 possono interagire con applicazioni e sistemi operativi per eseguire flussi di lavoro complessi.

Il sistema supporta fino a un milione di token di contesto, permettendo agli agenti di pianificare e verificare attività su sequenze molto lunghe di operazioni.

Gli sviluppatori possono inoltre controllare il comportamento del modello tramite istruzioni specifiche, adattandolo a differenti scenari operativi e livelli di sicurezza. In alcuni casi è possibile anche configurare politiche di conferma personalizzate per gestire operazioni sensibili.

Queste capacità aprono la strada a una nuova generazione di strumenti software in cui l’intelligenza artificiale non si limita a generare testo o codice, ma può eseguire direttamente operazioni digitali.


Prestazioni superiori nel lavoro basato sulla conoscenza

Uno dei principali ambiti di miglioramento riguarda il cosiddetto knowledge work, ovvero il lavoro basato sull’elaborazione di informazioni.

Nei test interni, GPT-5.4 ha mostrato risultati significativamente migliori rispetto alla versione precedente, GPT-5.2. In particolare, nel benchmark GDPval, che misura la capacità degli agenti di produrre elaborati professionali in 44 occupazioni diverse, il nuovo modello raggiunge prestazioni pari o superiori a quelle dei professionisti umani nell’83% dei confronti, contro il 70,9% registrato dal modello precedente.

GPT-5.4

Le attività valutate includono la creazione di presentazioni commerciali, fogli di calcolo contabili, pianificazioni sanitarie, diagrammi industriali e contenuti multimediali.

Secondo Brendan Foody, amministratore delegato di Mercor, GPT-5.4 rappresenta il miglior modello testato finora dalla sua azienda: “È ora in cima alla classifica del benchmark APEX-Agents, che misura le prestazioni nei servizi professionali. Eccelle nella creazione di deliverable complessi come presentazioni, modelli finanziari e analisi legali”.

GPT-5.4
In GDPval, i modelli tentano di svolgere un lavoro intellettuale ben specificato che abbraccia 44 professioni dei 9 settori principali che contribuiscono al PIL degli Stati Uniti. I compiti richiedono prodotti di lavoro reali, come presentazioni di vendita, fogli di calcolo contabili, programmi di assistenza urgente, diagrammi di produzione o brevi video. Lo sforzo di ragionamento è stato impostato su xhigh per GPT-5.4 e heavy per GPT-5.2 (un livello leggermente inferiore in ChatGPT).

Miglioramenti in fogli di calcolo, presentazioni e documenti

OpenAI ha dedicato particolare attenzione alla capacità del modello di lavorare con strumenti fondamentali nel contesto aziendale, come fogli di calcolo, presentazioni e documenti.

In un benchmark interno dedicato alla modellazione finanziaria — simile alle attività svolte da un analista junior in banca d’investimento — GPT-5.4 ha ottenuto un punteggio medio dell’87,3%, contro il 68,4% di GPT-5.2.

Anche nella creazione di presentazioni il nuovo modello ha dimostrato prestazioni migliori. Nei test di valutazione condotti con revisori umani, le presentazioni generate da GPT-5.4 sono state preferite nel 68% dei casi rispetto a quelle prodotte dal modello precedente.

I motivi principali della preferenza riguardano una migliore qualità estetica, una maggiore varietà visiva e un uso più efficace della generazione di immagini.

Per gli utenti aziendali, OpenAI ha inoltre introdotto un componente aggiuntivo di ChatGPT per Excel, pensato per integrare direttamente le capacità del modello nei flussi di lavoro basati su fogli di calcolo.

GPT-5.4

Meno errori e maggiore affidabilità

Uno degli obiettivi principali nello sviluppo di GPT-5.4 è stato ridurre gli errori e le cosiddette “allucinazioni”, cioè affermazioni apparentemente plausibili ma non corrette.

Secondo i test condotti dall’azienda, GPT-5.4 è il modello più accurato mai sviluppato da OpenAI. In un insieme di richieste reali segnalate dagli utenti per errori fattuali, il nuovo sistema mostra:

  • 33% in meno di affermazioni false
  • 18% in meno di risposte contenenti errori

Questi miglioramenti rendono il modello più adatto a contesti professionali in cui precisione e affidabilità sono fondamentali, come il settore legale o finanziario.

Niko Grupen, responsabile della ricerca applicata presso Harvey, ha sottolineato che GPT-5.4 stabilisce un nuovo standard nel lavoro legale basato su documenti complessi. Nel benchmark BigLaw Bench il modello ha ottenuto un punteggio del 91%, dimostrando una notevole capacità di analizzare contratti lunghi e strutturare analisi transazionali.

GPT-5.4
Uno strumento cede quando un assistente cede per attendere le risposte dello strumento. Se vengono chiamati 3 strumenti in parallelo, seguiti da altri 3 strumenti chiamati in parallelo, il numero di cedimenti sarebbe 2. I cedimenti degli strumenti sono un indicatore migliore della latenza rispetto alle chiamate degli strumenti perché riflettono i vantaggi della parallelizzazione.

Visione artificiale e comprensione delle immagini

GPT-5.4 introduce miglioramenti anche nel campo della visione artificiale.

Il modello è in grado di analizzare immagini ad alta risoluzione con maggiore precisione, grazie a un nuovo livello di dettaglio chiamato “original image input detail”, che supporta immagini fino a oltre 10 milioni di pixel.

Questo consente una comprensione più accurata di documenti complessi, grafici o interfacce software.

Nei test di riferimento, GPT-5.4 ha ottenuto risultati migliori rispetto alla versione precedente anche nei benchmark di comprensione visiva. Nel test MMMU-Pro, dedicato al ragionamento su contenuti visivi, il modello ha raggiunto un tasso di successo dell’81,2%.

Anche nella lettura automatica di documenti digitali si registrano progressi significativi, con una riduzione degli errori nella trascrizione e interpretazione dei contenuti.

GPT-5.4
MMMUPro è stato eseguito con lo sforzo di ragionamento impostato su xhigh. OmniDocBench è stato eseguito con lo sforzo di ragionamento impostato su nessuno, per riflettere prestazioni a basso costo e bassa latenza.

Programmazione e sviluppo software

Sul fronte della programmazione, GPT-5.4 combina le capacità di generazione di codice di GPT-5.3-Codex con nuove funzioni di ragionamento e uso degli strumenti.

Il modello è in grado di affrontare attività di sviluppo software più lunghe e complesse, sfruttando strumenti esterni e iterando sulle soluzioni fino a raggiungere risultati più raffinati.

Nei benchmark di riferimento per la programmazione, GPT-5.4 eguaglia o supera GPT-5.3-Codex mantenendo tempi di risposta più rapidi.

Questo lo rende particolarmente adatto a contesti in cui l’AI deve collaborare con sviluppatori umani nella creazione e manutenzione di progetti software articolati.

GPT-5.4
Stimiamo la latenza osservando il comportamento di produzione dei nostri modelli e simulandolo offline. La stima della latenza tiene conto della durata della chiamata dello strumento (tempo di esecuzione del codice), dei token campionati e dei token di input. La latenza reale può variare in modo sostanziale e dipende da molti fattori non considerati nella simulazione.

Miglior integrazione con strumenti esterni

Un’altra area di miglioramento riguarda l’integrazione con ecosistemi di strumenti e API esterne.

GPT-5.4 introduce una funzione chiamata tool search, che consente al modello di individuare e utilizzare gli strumenti disponibili solo quando necessario. In passato, tutte le definizioni degli strumenti dovevano essere incluse nel prompt iniziale, aumentando il numero di token e rallentando le risposte.

Con il nuovo sistema, il modello riceve solo un elenco leggero degli strumenti disponibili e può richiamarne le definizioni al momento opportuno.

Nei test interni questa soluzione ha ridotto il consumo totale di token del 47%, mantenendo la stessa accuratezza nelle attività svolte dagli agenti.

GPT-5.4
Uno strumento cede quando un assistente cede per attendere le risposte dello strumento. Se vengono chiamati 3 strumenti in parallelo, seguiti da altri 3 strumenti chiamati in parallelo, il numero di cedimenti sarebbe 2. I cedimenti degli strumenti sono un indicatore migliore della latenza rispetto alle chiamate degli strumenti perché riflettono i vantaggi della parallelizzazione.

Migliori capacità di ricerca sul web

GPT-5.4 mostra progressi significativi anche nella ricerca autonoma sul web.

Nel benchmark BrowseComp, che misura la capacità degli agenti di navigare internet alla ricerca di informazioni difficili da individuare, il modello migliora del 17% rispetto alla versione precedente.

La variante GPT-5.4 Pro raggiunge addirittura un tasso di successo dell’89,3%, stabilendo un nuovo record nel benchmark.

Nella pratica, questo significa che il sistema è più efficace nel raccogliere informazioni da molte fonti diverse e sintetizzarle in risposte coerenti e ben argomentate.

GPT-5.4
In BrowseComp OpenAI ha utilizzato un blocco di ricerca che escludeva i siti web contenenti risposte di riferimento dalla valutazione, al fine di prevenire contaminazioni e garantire una misurazione equa delle prestazioni. GPT-5.4 è stato misurato in una data successiva rispetto a GPT-5.2, quindi i punteggi riflettono i cambiamenti nel modello, nel sistema di ricerca e nello stato di Internet. GPT-5.4 è stato testato con una lista di blocco più lunga e aggiornata. I modelli utilizzano lo strumento di ricerca ChatGPT, che può presentare piccole differenze rispetto alla ricerca API.

Sicurezza e controllo dei rischi

Come per le versioni precedenti, OpenAI ha implementato diverse misure di sicurezza per ridurre i rischi legati all’uso improprio della tecnologia.

Il modello è stato classificato come dotato di elevate capacità informatiche secondo il framework interno di preparazione dell’azienda. Di conseguenza, viene distribuito con sistemi di protezione rafforzati, tra cui monitoraggio avanzato, controlli di accesso e meccanismi di blocco automatico per richieste considerate rischiose.

L’azienda continua inoltre a studiare il modo in cui i modelli espongono il proprio processo di ragionamento, per migliorare la capacità di individuare comportamenti indesiderati.

Video GPT-4


Disponibilità e prezzi

GPT-5.4 viene stato rilasciato progressivamente su ChatGPT e Codex.

Nelle API è disponibile con il nome gpt-5.4, mentre la versione più potente è accessibile come gpt-5.4-pro.

Su ChatGPT, GPT-5.4 Thinking sostituisce il precedente GPT-5.2 Thinking per gli utenti dei piani Plus, Team e Pro. Il modello precedente rimarrà disponibile nella sezione “Legacy Models” per tre mesi, fino al 5 giugno 2026.

Secondo OpenAI, il costo per token di GPT-5.4 nelle API è superiore a quello della versione precedente, ma la maggiore efficienza del modello consente spesso di utilizzare meno token complessivi, riducendo il costo finale delle operazioni.

GPT-5.4

Una nuova fase nell’evoluzione dei modelli AI

Con il lancio di GPT-5.4, OpenAI punta a consolidare la propria posizione nel campo dell’intelligenza artificiale applicata al lavoro professionale.

Il nuovo modello rappresenta il primo sistema di ragionamento della linea principale a integrare completamente le capacità avanzate di programmazione sviluppate con Codex.

Secondo l’azienda, in futuro i modelli Instant e Thinking continueranno a evolversi a ritmi diversi, offrendo strumenti sempre più specializzati per differenti scenari d’uso.

GPT-5.4 segna quindi una nuova fase nell’evoluzione degli assistenti basati su intelligenza artificiale: non più semplici generatori di testo, ma strumenti operativi capaci di pianificare, analizzare e completare attività professionali complesse.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x