ai coding

GPT-5.3-Codex: l’agente AI che lavora sul computer come un professionista



Indirizzo copiato

Un salto evolutivo negli agenti AI: più veloce, più autonomo e più collaborativo. Il nuovo modello di OpenAI non si limita a scrivere codice, ma opera sull’intero computer, supportando sviluppo, analisi e lavoro professionale complesso. Un passo decisivo verso un collaboratore digitale generalista

Pubblicato il 6 feb 2026



GPT-5.3 Codex

Con GPT-5.3-Codex, OpenAI inaugura una nuova fase nell’evoluzione degli agenti intelligenti. Non si tratta più soltanto di un modello capace di scrivere codice o correggere bug, ma di un collaboratore digitale completo, in grado di operare su un computer come farebbe un professionista umano. Ricerca, sviluppo, progettazione, analisi, esecuzione: tutto converge in un unico modello, più veloce, più autonomo e più interattivo che mai.

GPT-5.3-Codex rappresenta il punto di incontro tra le capacità di programmazione di frontiera di GPT-5.2-Codex e le abilità avanzate di ragionamento e conoscenza professionale di GPT-5.2. Il risultato è un modello 25% più rapido, capace di gestire attività complesse e di lunga durata senza perdere il contesto, e soprattutto in grado di collaborare attivamente con l’utente mentre lavora, come farebbe un collega esperto.


Cos’è GPT-5.3-Codex e perché è diverso

GPT-5.3-Codex è il modello agentico di coding più avanzato mai rilasciato da OpenAI. La sua peculiarità non risiede solo nelle prestazioni, ma nella natura del suo utilizzo: Codex non è più uno strumento reattivo che risponde a comandi puntuali, bensì un agente che pianifica, esegue, monitora e corregge il proprio lavoro nel tempo.

Una caratteristica simbolica della sua evoluzione è il fatto che GPT-5.3-Codex ha contribuito attivamente alla propria creazione. Le versioni preliminari del modello sono state utilizzate dal team Codex per eseguire il debug del training, gestire il deployment, analizzare risultati di test e valutazioni. Secondo gli sviluppatori, l’impatto sull’accelerazione dello sviluppo interno è stato sorprendente.

Questa auto-collaborazione segna un passaggio storico: per la prima volta, un modello AI diventa uno strumento centrale nella propria evoluzione tecnica.


Dall’agente di codice all’agente universale

Con GPT-5.3-Codex, Codex smette di essere “solo” un assistente per programmatori e diventa un agente capace di svolgere quasi tutto ciò che sviluppatori e professionisti fanno quotidianamente su un computer.

Questo include:

  • scrittura e revisione del codice
  • debugging e testing
  • deployment e monitoraggio
  • creazione di documentazione tecnica e PRD
  • analisi di dati e fogli di calcolo
  • realizzazione di presentazioni
  • supporto alla ricerca utenti
  • gestione di metriche e report

In altre parole, GPT-5.3-Codex copre l’intero ciclo di vita del software e si estende ben oltre, entrando nel territorio del lavoro professionale generalista.

GPT -5.3 Codex

Prestazioni di frontiera nei benchmark agentici

GPT-5.3-Codex stabilisce nuovi record nei principali benchmark utilizzati per valutare capacità di coding, agentività e utilizzo reale del computer.

Il modello raggiunge un nuovo massimo su:

  • SWE-Bench Pro
  • Terminal-Bench 2.0
  • OSWorld
  • GDPval

Questi test misurano non solo la qualità del codice prodotto, ma la capacità dell’agente di operare in ambienti realistici, utilizzare strumenti, comprendere obiettivi complessi e portarli a termine in modo autonomo.

GPT -5.3 Codex

Nel benchmark OSWorld-Verified, che richiede l’uso della visione per completare attività su un desktop grafico, gli esseri umani ottengono un punteggio medio del 72%. GPT-5.3-Codex dimostra prestazioni nettamente superiori a quelle dei modelli precedenti, avvicinandosi sempre di più all’efficienza umana nel lavoro digitale.

GPT -5.3 Codex
In OSWorld-Verified, i modelli utilizzano la visione per completare diverse attività informatiche. Gli esseri umani ottengono un punteggio pari a circa il 72%.

Coding avanzato: meno token, più risultati

Sul fronte della programmazione pura, GPT-5.3-Codex raggiunge lo stato dell’arte su SWE-Bench Pro, una valutazione estremamente rigorosa che simula veri problemi di ingegneria software.

A differenza di SWE-Bench Verified, limitato a Python, SWE-Bench Pro copre quattro linguaggi di programmazione, è più resistente alla contaminazione dei dati ed è progettato per riflettere contesti industriali reali.

Un dato particolarmente rilevante è che GPT-5.3-Codex ottiene questi risultati utilizzando meno token rispetto a qualsiasi modello precedente. Questo significa maggiore efficienza, costi ridotti e la possibilità per gli utenti di costruire sistemi più complessi senza limiti artificiali.


GPT -5.3 Codex

Web development: applicazioni e giochi complessi

Uno degli ambiti in cui GPT-5.3-Codex mostra il salto qualitativo più evidente è lo sviluppo web. Grazie alla combinazione di capacità di coding avanzate, miglioramenti estetici e una maggiore capacità di sintesi, il modello è in grado di costruire applicazioni complete e giochi complessi da zero, lavorando in autonomia per giorni.

Per testare queste capacità, OpenAI ha chiesto al modello di sviluppare due giochi:

  • un gioco di corse, con più piloti, otto mappe e oggetti utilizzabili
  • un gioco subacqueo, in cui il giocatore esplora barriere coralline, colleziona specie marine e gestisce ossigeno, pressione e pericoli

Utilizzando prompt generici come “correggi il bug” o “migliora il gioco”, GPT-5.3-Codex ha iterato autonomamente per milioni di token, dimostrando una capacità rara di mantenere una visione progettuale di lungo periodo.

GPT -5.3 Codex
Ogni attività in GDPval è stata progettata da un professionista esperto e riflette il lavoro intellettuale reale svolto nella sua professione.

Migliore comprensione dell’intento dell’utente

Rispetto a GPT-5.2-Codex, il nuovo modello interpreta in modo molto più accurato l’intento dell’utente, specialmente quando i prompt sono semplici o poco dettagliati.

Quando gli viene chiesto di creare siti web quotidiani, GPT-5.3-Codex propone soluzioni più complete e con impostazioni sensate di default, offrendo una base solida su cui costruire.

Un esempio concreto è la creazione di una landing page SaaS: il modello ha automaticamente mostrato il piano annuale come prezzo mensile scontato, inserito un carosello di testimonianze dinamico e strutturato meglio le sezioni, rendendo la pagina più vicina a un prodotto pronto per la produzione.


Oltre il software: lavoro professionale completo

GPT-5.3-Codex non si limita allo sviluppo software. Grazie a competenze agentiche avanzate, il modello supporta anche lavoro professionale non tecnico, come la creazione di presentazioni, l’analisi finanziaria o la produzione di documenti complessi.

Nel benchmark GDPval, che valuta attività di knowledge work in 44 professioni diverse, GPT-5.3-Codex eguaglia le prestazioni di GPT-5.2, dimostrando una solida competenza in compiti come:

  • creazione di slide
  • fogli di calcolo
  • report strutturati
  • analisi comparative
  • documentazione regolatoria

Questo lo rende uno strumento trasversale, utile non solo per sviluppatori, ma anche per manager, consulenti, analisti e ricercatori.


Un collaboratore interattivo, non un output finale

Con l’aumento delle capacità degli agenti, la vera sfida diventa come interagire efficacemente con essi. Il Codex app affronta questo problema rendendo la collaborazione uomo-AI più fluida e continua.

GPT-5.3-Codex fornisce aggiornamenti frequenti sullo stato del lavoro, spiega le decisioni prese, risponde ai feedback e consente all’utente di intervenire in tempo reale, senza dover attendere un output finale.

Questa modalità trasforma l’esperienza d’uso: non più una richiesta e una risposta, ma un dialogo continuo orientato al risultato.


Sicurezza informatica e approccio prudenziale

Con l’aumento delle capacità, cresce anche la responsabilità. GPT-5.3-Codex è il primo modello classificato da OpenAI come ad alta capacità per compiti di cybersecurity secondo il Preparedness Framework.

Pur non essendoci prove che possa automatizzare attacchi informatici end-to-end, OpenAI ha adottato un approccio prudenziale, implementando il più completo stack di sicurezza mai utilizzato per un modello Codex.

Le misure includono:

  • training specifico sulla sicurezza
  • monitoraggio automatico
  • accessi fidati per funzionalità avanzate
  • pipeline di enforcement basate su threat intelligence

Parallelamente, OpenAI lancia Trusted Access for Cyber, un programma pilota per accelerare la ricerca difensiva e rafforzare la resilienza dell’ecosistema.


Disponibilità e prospettive future

GPT-5.3-Codex è disponibile per gli utenti con piani ChatGPT a pagamento, attraverso app, CLI, estensioni IDE e web. L’accesso API sarà abilitato prossimamente in modo graduale e sicuro.

Il modello è stato co-progettato, addestrato e distribuito su sistemi Nvidia GB200 NVL72, segnando una collaborazione tecnologica di alto livello.

Con questo rilascio, Codex compie un passo decisivo: da assistente di coding a collaboratore generalista sul computer, capace di ragionare, costruire ed eseguire attività complesse dall’inizio alla fine.

Per scaricare la system card di GPT-5.3 Codex.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x