OpenAI annuncia il rilascio di o3 e o4-mini, i modelli più recenti della serie o, progettati per riflettere più a lungo prima di fornire una risposta. Si tratta dei modelli più intelligenti sviluppati finora, che rappresentano un vero salto di qualità nelle capacità di ChatGPT.
Per la prima volta, questi modelli di ragionamento sono in grado di utilizzare in modo autonomo e combinare tutti gli strumenti disponibili in ChatGPT, compresa la navigazione sul web, l’analisi di file caricati o altri dati con Python, l’elaborazione approfondita di input visivi e la generazione di immagini.
Un aspetto fondamentale è che sono stati addestrati per capire quando e come usare questi strumenti, offrendo risposte articolate e accurate nei formati più adeguati, spesso in meno di un minuto, per risolvere problemi complessi. Questa evoluzione li rende in grado di affrontare domande complesse in modo più efficace, avvicinandosi a un ChatGPT più “agente”, capace di eseguire autonomamente compiti per conto dell’utente.
La combinazione tra capacità di ragionamento avanzate e pieno accesso agli strumenti si traduce in prestazioni significativamente migliori, sia nei benchmark accademici sia in compiti del mondo reale, fissando un nuovo standard in termini di intelligenza e utilità.
Indice degli argomenti:
Le caratteristiche dei due nuovi modelli di OpenAI
OpenAI o3
OpenAI o3 è il modello di ragionamento più potente mai sviluppato da OpenAI. Estende i limiti delle capacità attuali in ambiti come programmazione, matematica, scienza, percezione visiva e molto altro. Ha stabilito nuovi record nei benchmark come Codeforces, SWE-bench (senza la necessità di strutture su misura) e MMMU. È ideale per domande complesse che richiedono analisi articolate e risposte non immediate, distinguendosi in particolare nelle attività visive come l’analisi di immagini, grafici e diagrammi.
Secondo le valutazioni condotte da esperti esterni, o3 commette il 20% di errori gravi in meno rispetto al modello precedente (OpenAI o1) nei compiti difficili e realistici, con prestazioni eccezionali in settori come la programmazione, la consulenza aziendale e la generazione di idee creative. I primi tester hanno evidenziato la sua capacità analitica come partner di pensiero, sottolineando in particolare la sua abilità nel formulare e valutare criticamente ipotesi innovative, soprattutto nei contesti di biologia, matematica e ingegneria.
OpenAI o4-mini
OpenAI o4-mini è invece un modello più compatto, ottimizzato per un ragionamento rapido ed efficiente in termini di costi. Nonostante le dimensioni ridotte, raggiunge prestazioni straordinarie, specialmente in matematica, programmazione e compiti visivi. È il modello con i risultati migliori nei benchmark AIME 2024 e 2025. Nelle valutazioni degli esperti, ha superato il suo predecessore o3-mini anche in compiti non STEM e in ambiti come la data science.
Grazie alla sua efficienza, o4-mini consente limiti di utilizzo molto più alti rispetto a o3, rendendolo una scelta ideale per richieste ad alto volume che richiedono capacità di ragionamento.
Qualità delle risposte e interazione
Gli esperti esterni hanno rilevato in entrambi i modelli un miglioramento nella capacità di seguire istruzioni e fornire risposte utili e verificabili, grazie a una maggiore intelligenza e all’integrazione di fonti web. Rispetto alle versioni precedenti, questi modelli risultano anche più naturali e conversazionali, soprattutto per la capacità di richiamare la memoria e fare riferimento alle conversazioni passate, rendendo così le risposte più personalizzate e pertinenti.







Continuare a scalare l’apprendimento per rinforzo
Nel corso dello sviluppo di OpenAI o3, il team di ricerca ha osservato che l’apprendimento per rinforzo su larga scala segue lo stesso andamento già riscontrato nel pretraining della serie GPT: più potenza di calcolo equivale a migliori prestazioni. Ripercorrendo questo percorso di scaling – questa volta nell’ambito dell’RL (Reinforcement Learning) – è stato possibile spingere un ordine di grandezza in più sia nella potenza di calcolo impiegata per l’addestramento sia nella capacità di ragionamento in fase di inferenza. E nonostante ciò, i guadagni in termini di performance restano evidenti, confermando che le prestazioni del modello continuano a migliorare quanto più gli viene concesso di “pensare”.
A parità di latenza e costi rispetto a OpenAI o1, o3 offre prestazioni superiori in ChatGPT, e i test hanno dimostrato che, lasciandogli più tempo per elaborare, le sue capacità continuano a crescere.
Entrambi i modelli (o3 e o4-mini) sono stati inoltre addestrati a utilizzare gli strumenti tramite apprendimento per rinforzo, non solo imparando come impiegarli, ma anche quando è opportuno farlo. Questa capacità di selezionare e attivare gli strumenti in base al risultato desiderato li rende particolarmente efficaci in contesti aperti e complessi—soprattutto in quelli che richiedono ragionamento visivo e flussi di lavoro multi-step. Questo miglioramento è stato confermato sia nei benchmark accademici sia nei compiti applicativi reali, secondo quanto riportato dai primi tester.
Pensare con le immagini

Integrazione nativa delle immagini nel processo di pensiero
Per la prima volta, questi modelli sono in grado di integrare direttamente le immagini nella propria catena di ragionamento. Non si limitano a “vedere” un’immagine: ragionano attraverso di essa. Questo abilita una nuova classe di problem-solving che combina il ragionamento visivo e testuale, come dimostrato dalle prestazioni all’avanguardia ottenute nei benchmark multimodali.
Chi utilizza questi modelli può caricare una foto di una lavagna, un diagramma tratto da un libro di testo o uno schizzo a mano, e il modello è in grado di interpretarlo—anche se l’immagine è sfocata, capovolta o di bassa qualità. Con l’uso degli strumenti integrati, i modelli possono manipolare le immagini in tempo reale, ruotandole, ingrandendole o trasformandole come parte del processo di ragionamento.
Questi modelli raggiungono un’accuratezza senza precedenti nei compiti di percezione visiva, rendendo possibile risolvere domande che in precedenza erano fuori portata. Ulteriori approfondimenti sono disponibili nel blog di ricerca sul ragionamento visivo.
Verso un uso agente degli strumenti
OpenAI o3 e o4-mini hanno accesso completo agli strumenti disponibili in ChatGPT, oltre alla possibilità di utilizzare strumenti personalizzati attraverso il function calling dell’API. Questi modelli sono stati addestrati per ragionare su come risolvere un problema, scegliendo autonomamente quando e come impiegare gli strumenti per produrre risposte dettagliate e ben strutturate, nel formato più adatto, e in tempi rapidi, solitamente entro un minuto.
Ad esempio, se viene posta la domanda: “Come sarà il consumo energetico estivo in California rispetto all’anno scorso?”, il modello può cercare dati pubblici sui consumi, scrivere codice Python per generare una previsione, creare un grafico o un’immagine e spiegare i fattori chiave alla base della previsione, concatenando diverse chiamate agli strumenti. Il processo di ragionamento consente al modello di adattarsi e reagire in base alle informazioni che incontra. Può, ad esempio, effettuare più ricerche online tramite fornitori di ricerca, analizzare i risultati e modificare la ricerca se ha bisogno di ulteriori dati.
Questo approccio flessibile e strategico consente al modello di affrontare compiti che richiedono accesso a informazioni aggiornate oltre la propria conoscenza nativa, combinando ragionamento esteso, sintesi e generazione di output multimodali.
Costi e prestazioni di o3-mini e o4-mini

Costi e prestazioni: o1 vs. o3

OpenAI o3 e o4-mini: più intelligenti ed efficienti
OpenAI o3 e o4-mini rappresentano i modelli più intelligenti mai rilasciati da OpenAI, e spesso risultano anche più efficienti rispetto ai loro predecessori, o1 e o3-mini. Ad esempio, nella competizione matematica AIME 2025, la frontiera costo-prestazioni di o3 risulta nettamente migliorata rispetto a o1; analogamente, la frontiera di o4-mini supera quella di o3-mini. Più in generale, si prevede che per la maggior parte degli utilizzi nel mondo reale, o3 e o4-mini saranno sia più intelligenti sia più economici rispetto ai rispettivi predecessori.
Sicurezza
Ogni miglioramento nelle capacità dei modelli richiede progressi corrispondenti in termini di sicurezza. Per o3 e o4-mini, OpenAI ha ricostruito da zero i set di dati per l’addestramento alla sicurezza, includendo nuove istruzioni di rifiuto in aree sensibili come rischi biologici (biorisk), generazione di malware e tentativi di jailbreak. Questo aggiornamento ha permesso a entrambi i modelli di raggiungere performance elevate nei benchmark interni di rifiuto, come la gerarchia delle istruzioni e i test di jailbreak.
Oltre a migliorare le risposte di rifiuto dei modelli, sono state sviluppate anche mitigazioni a livello di sistema, capaci di rilevare richieste pericolose nei domini ad alto rischio. Sulla scia del lavoro condotto in precedenza nella generazione di immagini, è stato addestrato un LLM di monitoraggio del ragionamento basato su specifiche di sicurezza scritte da esseri umani, comprensibili e interpretabili. Applicato al contesto dei biorischi, questo monitor ha individuato con successo circa il 99% delle conversazioni problematiche durante la campagna di red-teaming condotta da esperti umani.
Entrambi i modelli sono stati sottoposti al programma di sicurezza più rigoroso mai implementato da OpenAI. In conformità con il nuovo Preparedness Framework, o3 e o4-mini sono stati valutati in tre aree di capacità critiche: biologica e chimica, cybersecurity e auto-miglioramento dell’AI. I risultati dimostrano che entrambi i modelli rimangono al di sotto della soglia “Alta” definita dal Framework in tutte e tre le categorie. I risultati dettagliati sono stati pubblicati nella system card dedicata.
Codex CLI: ragionamento avanzato da terminale
OpenAI ha inoltre lanciato un nuovo esperimento: Codex CLI, un agente di codifica leggero eseguibile da terminale. Funziona localmente sul computer dell’utente ed è progettato per sfruttare al massimo le capacità di ragionamento dei modelli o3 e o4-mini, con il supporto futuro esteso anche a modelli API come GPT-4.1.
Codex CLI consente di beneficiare del ragionamento multimodale direttamente dalla riga di comando, ad esempio passando screenshot o bozzetti a bassa fedeltà, combinati con l’accesso al codice locale. Si tratta di un’interfaccia minimale pensata per collegare i modelli direttamente agli utenti e ai loro computer. Il progetto è completamente open-source e disponibile su GitHub.
Contestualmente, è stato annunciato un programma di finanziamento da 1 milione di dollari per supportare progetti che utilizzano Codex CLI e i modelli OpenAI. Sarà possibile candidarsi per ricevere grants da 25mila dollari in crediti API. Le candidature possono essere inviate tramite il form ufficiale.
Accesso ai modelli
Gli utenti dei piani ChatGPT Plus, Pro e Team potranno selezionare o3, o4-mini e o4-mini-high dal selettore dei modelli, che sostituiranno rispettivamente o1, o3-mini e o3-mini-high.
Anche gli utenti Enterprise ed Edu hanno accesso ai nuovi modelli. Gli utenti della versione gratuita potranno provare o4-mini selezionando la modalità “Think” nel composer prima di inviare una richiesta. I limiti di utilizzo rimangono invariati rispetto ai modelli precedenti.
È previsto il rilascio di OpenAI o3-pro, con supporto completo agli strumenti. Nel frattempo, gli utenti Pro possono ancora accedere a o1-pro.
Sia o3 che o4-mini sono inoltre già disponibili per gli sviluppatori tramite le API Chat Completions e Responses (alcuni sviluppatori potrebbero dover verificare le proprie organizzazioni per ottenere l’accesso). L’API Responses supporta funzionalità come la sintesi del ragionamento, la possibilità di conservare i token di ragionamento intorno alle chiamate di funzione per prestazioni migliorate, e in futuro integrerà strumenti nativi come la ricerca web, la ricerca file e il code interpreter. Tutta la documentazione è disponibile sul sito ufficiale di OpenAI.
Prospettive future
Gli aggiornamenti odierni tracciano una direzione chiara: l’obiettivo è convergere le capacità di ragionamento specializzato della serie o con le abilità conversazionali e di utilizzo strumenti della serie GPT. L’unione di questi punti di forza permetterà di sviluppare modelli capaci di conversazioni fluide e naturali, affiancate da un uso proattivo degli strumenti e da un problem-solving avanzato.