OpenAI e Anthropic hanno rilasciato in parallelo GPT-5.3 Codex e Claude Opus 4.6: la simultaneità dei due annunci va letta come un messaggio al mercato enterprise. L’oggetto della competizione non è più la qualità della singola risposta, ma la capacità di sostenere lavoro lungo, usare strumenti, operare in ambienti digitali reali e produrre deliverable pronti per entrare nei processi.
Per chi decide e deve valutare che soluzioni usare questo spostamento è concreto perché ridefinisce dove si crea valore. Un agente non suggerisce soltanto cosa fare, ma può eseguire parti del flusso: organizzare attività, iterare, recuperare informazioni, utilizzare strumenti, generare modifiche su asset digitali e arrivare a uno stato consegnabile.
Quando questo accade, cambiano responsabilità, controlli, audit e metriche di performance, e lo strumento AI smette di essere un supporto “marginale” e diventa un elemento strutturale dell’esecuzione.
Indice degli argomenti:
GPT-5.3 Codex: dall’AI che suggerisce all’AI che opera
GPT-5.3 Codex viene presentato come un salto di ambizione. Non più solo un agente che scrive o revisiona codice, ma un agente capace di svolgere gran parte delle attività che sviluppatori e professionisti eseguono su un computer. L’obiettivo dichiarato è unire capacità avanzate di coding a ragionamento generale e knowledge work, aumentando al tempo stesso velocità ed efficienza.
Cosa segnala sul piano delle capacità
Il punto chiave non sono i numeri in sé, ma il tipo di valutazioni utilizzate. Le performance dichiarate fanno riferimento a benchmark progettati per agenti end-to-end, capaci di lavorare su task realistici e multi-step. Questo segnala una traiettoria chiara: l’AI viene misurata sempre meno sulla generazione di testo isolata e sempre più sulla capacità di operare dentro workflow reali.
Per il management, questo significa che Codex è pensato per contesti in cui il lavoro è strutturato, digitalizzato e basato su toolchain definite. Software engineering, automazioni tecniche, operazioni su ambienti digitali e infrastrutture sono il terreno naturale di questo approccio.

Cosa segnala sul piano del prodotto
Un elemento distintivo è l’investimento sull’orchestrazione. Codex non è solo un modello, ma una piattaforma operativa. L’applicazione viene concepita come un centro di comando per più agenti, con progetti separati, lavoro in parallelo e isolamento delle modifiche per ridurre conflitti.
Il concetto di “skills” rende ripetibili workflow complessi, integrando istruzioni, risorse e automazioni. Questo consente di trasformare pratiche di team in capacità riusabili dall’agente, avvicinando l’AI a un vero ruolo operativo all’interno dell’organizzazione.
Dal punto di vista organizzativo, emerge un’idea chiara di controllo: approvazioni, differenze tra stato iniziale e finale, e supervisione continua diventano primitive del ciclo agentico. È un segnale di maturità verso l’adozione enterprise.

Sicurezza: perché per l’impresa non è un dettaglio
Quando un agente opera su file system, strumenti e rete, la sicurezza non è più un tema accessorio. GPT-5.3 Codex viene trattato come modello ad alta capacità in ambito cybersecurity, con attenzione esplicita ai rischi operativi.
Vengono messi in evidenza due aspetti rilevanti per chi deve approvare una messa in produzione. Da un lato, la riduzione del rischio di azioni distruttive mascherate da comandi semplici. Dall’altro, un rafforzamento delle capacità di operare in contesti cyber complessi, con un posizionamento che punta a favorire i difensori.
Questo framing rende Codex particolarmente interessante per organizzazioni che vogliono automatizzare parti dell’operatività mantenendo un presidio forte su sicurezza e controllo.
Claude Opus 4.6: l’agente cognitivo per il lavoro decisionale
Claude Opus 4.6 segue una traiettoria diversa. Viene presentato come evoluzione del modello di punta, con miglioramenti su pianificazione, durata dei task agentici e affidabilità su contesti complessi. L’introduzione di una finestra di contesto molto estesa segna un passo importante per l’uso su documenti e processi articolati.
Dove spinge: documenti, finanza, ricerca e output pronti
Anthropic posiziona Opus 4.6 in modo esplicito sul lavoro quotidiano ad alta intensità di conoscenza. Analisi finanziarie, ricerca, documenti, fogli di calcolo e presentazioni diventano il focus principale. L’obiettivo è ridurre il numero di iterazioni necessarie per ottenere un output utilizzabile, aumentando la qualità complessiva del risultato.
Per CEO e responsabili innovation, questo approccio rende Opus particolarmente adatto ai processi decisionali. L’agente non sostituisce il giudizio umano, ma amplia lo spazio delle alternative valutabili, accelera l’analisi e migliora la sintesi.
L’elemento distintivo: contesto lungo utilizzabile
Un aspetto centrale è l’attenzione alla gestione del contesto lungo. Non si tratta solo di dichiarare una finestra ampia, ma di dimostrare la capacità di recuperare informazioni rilevanti lungo conversazioni e documenti estesi. Per le organizzazioni document-heavy, questo rappresenta un possibile discriminante concreto.

Distribuzione e controlli enterprise
Opus 4.6 viene reso disponibile su più canali, con un modello di pricing che distingue chiaramente tra utilizzo standard e uso intensivo di contesto lungo. Un elemento rilevante per l’impresa è la possibilità di governare dove avviene l’inferenza, introducendo un controllo geografico che in alcuni settori semplifica notevolmente i temi di compliance.
Safety e cyber: un framing simile, strumenti diversi
Anche Anthropic rafforza il tema sicurezza, ampliando le valutazioni e introducendo meccanismi di monitoraggio più granulari per prevenire abusi. Il messaggio è simile a quello di OpenAI: l’aumento di capacità agentiche richiede controlli più stretti. Gli strumenti e le policy, però, seguono una filosofia diversa, più orientata alla regolazione del comportamento nel tempo.

Convergenze strategiche e differenze di approccio
Le convergenze sono evidenti. Entrambi i vendor parlano di agenti che lavorano per obiettivi, sostengono task lunghi, usano strumenti e operano oltre il perimetro del solo codice. Entrambi spostano l’attenzione dai prompt alle catene di lavoro.
Le differenze emergono su tre piani che per l’impresa diventano criteri di scelta: dove vive l’agente, come viene governato, e per quali processi viene ottimizzato nel breve periodo.
GPT-5.3 Codex è focalizzato sull’orchestrazione di lavoro tecnico end-to-end su computer e toolchain.
Claude Opus 4.6 è focalizzato sul knowledge work e sulla produzione di deliverable per processi decisionali.
Codex punta su un centro di comando multi-agente, skills riusabili e automazioni. Opus punta su controlli di effort, gestione del contesto lungo e integrazione con strumenti di produttività.
Perché questa è una decisione da board, non da team
Il passaggio da assistenti a agenti sposta la discussione dall’adozione individuale alla progettazione di sistema. Quando un agente può leggere e scrivere su repository, interagire con strumenti e produrre output che entrano nei processi aziendali, il tema diventa governance.
Permessi, audit, responsabilità, limiti di autonomia e gestione delle eccezioni non sono dettagli tecnici, ma decisioni organizzative. La componente cyber rafforza ulteriormente la necessità di un presidio a livello di board.
In parallelo, cresce la pressione competitiva sul software tradizionale. L’AI agentica tende a disintermediare parti di stack esistenti o a cambiarne radicalmente il valore. Questo tocca strategia di prodotto, vendor strategy e priorità di investimento.
Cosa cambia concretamente per i leader
Cambia il modo di costruire una roadmap. Non basta più finanziare casi d’uso isolati. Serve scegliere alcuni value stream prioritari e testarli con agenti in modo misurabile: uno orientato all’operatività tecnica e uno orientato al knowledge work.
Cambia anche la natura della messa in produzione. Il lavoro principale non è nel modello, ma nel layer che lo circonda: integrazioni, permessi, workflow di approvazione, logging e gestione delle escalation. Entrambi i vendor stanno costruendo parti di questo sistema operativo dell’agente.
Infine, cambiano le competenze richieste. Con task lunghi e multi-agente, il collo di bottiglia si sposta sull’orchestrazione e sulla supervisione. Il valore umano si concentra sempre più nella definizione degli obiettivi e nella valutazione dell’output.
Perché scegliere una o l’altra e quando ha senso un portafoglio
La scelta diventa più chiara se si decide prima dove si vuole impatto nei prossimi mesi.
Se la priorità è accelerare il ciclo di vita del software e automatizzare workflow tecnici end-to-end, GPT-5.3 Codex offre un vantaggio in termini di packaging operativo e orchestrazione.
Se la priorità è aumentare qualità e velocità del knowledge work document-heavy e ridurre le iterazioni decisionali, Claude Opus 4.6 mette sul tavolo elementi distintivi legati a contesto lungo, controlli di effort e integrazione con strumenti di produttività.
In molti casi, la scelta non sarà esclusiva. Un portafoglio di agenti, uno engineering-centric e uno knowledge-centric, può avere senso.
La condizione necessaria è una regia unica su policy, logging e accessi. Senza questo layer comune, l’adozione multi-modello rischia di moltiplicare complessità e rischi.







