AI generativa

Da OpenAI, tre nuovi modelli: GPT-4.1, GPT-4.1 mini e GPT-4.1 nano



Indirizzo copiato

Superano le prestazioni di GPT-4o e GPT-4o mini in tutti gli ambiti, con miglioramenti significativi nella scrittura di codice e nel rispetto delle istruzioni. Offrono inoltre finestre di contesto più ampie, fino a 1 milione di token, e offrono una capacità migliorata di comprensione del contesto lungo. La prima volta di un modello “nano”

Pubblicato il 16 apr 2025



GPT-4.1 API

OpenAI annuncia una nuova serie di modelli GPT all’interno delle API: GPT-4.1, GPT-4.1 mini e GPT-4.1 nano. Questi modelli presentano importanti miglioramenti nella programmazione, nella capacità di seguire istruzioni e nella gestione di contesti lunghi – oltre al primo modello “nano” mai sviluppato. Superano le prestazioni di GPT-4o e GPT-4o mini in tutti gli ambiti, con miglioramenti significativi nella scrittura di codice e nel rispetto delle istruzioni. Offrono inoltre finestre di contesto più ampie – fino a 1 milione di token – e comprendono meglio tali contesti grazie a una capacità migliorata di comprensione del contesto lungo.

I modelli presentano un cutoff di conoscenza aggiornato a giugno 2024.

Rilasciato anche Graphwalks, un dataset progettato per valutare la capacità di ragionamento multi-hop su contesti lunghi.

GPT-4.1: i benchmark di riferimento del settore

GPT-4.1 si distingue nei seguenti benchmark di riferimento del settore:

  • Programmazione: ottiene un punteggio del 54,6% su SWE-bench Verified, con un miglioramento assoluto del 21,4% rispetto a GPT-4o e del 26,6% rispetto a GPT-4.5, affermandosi come uno dei modelli leader per il coding.
  • Seguire istruzioni: secondo il benchmark MultiChallenge di Scale, che misura la capacità di seguire istruzioni, raggiunge un 38,3%, con un aumento assoluto del 10,5% rispetto a GPT-4o.
  • Contesto lungo: nel benchmark Video-MME per la comprensione multimodale di contesti estesi, stabilisce un nuovo record con un 72,0% nella categoria “long, no subtitles”, segnando un miglioramento del 6,7% rispetto a GPT-4o.

Sebbene i benchmark forniscano indicazioni utili, questi modelli sono stati addestrati puntando soprattutto all’utilità nel mondo reale. Una stretta collaborazione con la community di sviluppatori ha permesso di ottimizzarli per le attività più rilevanti per le loro applicazioni.

Per questo motivo, la famiglia di modelli GPT-4.1 offre prestazioni migliorate a un costo inferiore, migliorando la performance lungo l’intera curva di latenza.

GPT-4.1 API

GPT-4.1 mini e nano: nuove frontiere di prestazioni nei modelli di piccole dimensioni

GPT-4.1 mini rappresenta un salto di qualità significativo nelle prestazioni dei modelli di piccole dimensioni, superando persino GPT-4o in numerosi benchmark. Raggiunge o supera GPT-4o nei test di valutazione dell’intelligenza, riducendo al contempo la latenza di quasi il 50% e il costo dell’83%.

Per i compiti che richiedono bassa latenza, GPT-4.1 nano è il modello più veloce ed economico disponibile. Pur mantenendo dimensioni contenute, offre prestazioni eccezionali grazie alla sua finestra di contesto da 1 milione di token. Ottiene un 80,1% su MMLU, un 50,3% su GPQA e un 9,8% su Aider polyglot coding, superando persino GPT-4o mini. Risulta quindi ideale per attività come la classificazione o il completamento automatico.


Miglioramenti per agenti intelligenti e automazione

I miglioramenti nella capacità di seguire istruzioni e nella comprensione di contesti lunghi rendono i modelli GPT-4.1 molto più efficaci nell’alimentare agenti intelligenti, ovvero sistemi capaci di svolgere in autonomia compiti per conto degli utenti. Se combinati con primitive come la Responses API, consentono agli sviluppatori di creare agenti più utili e affidabili per:

  • l’ingegneria del software nel mondo reale,
  • l’estrazione di insight da documenti di grandi dimensioni,
  • la risoluzione di richieste clienti con minima supervisione,
  • e altri compiti complessi.

Disponibilità e deprecazione di GPT-4.5 Preview

GPT-4.1 sarà disponibile esclusivamente tramite API. All’interno di ChatGPT, molte delle migliorie introdotte in termini di istruzioni, programmazione e intelligenza sono già state gradualmente integrate nell’ultima versione di GPT-4o, con ulteriori aggiornamenti previsti nei prossimi rilasci.

Contestualmente, è stato annunciato l’inizio della deprecazione del modello GPT-4.5 Preview all’interno dell’API, poiché GPT-4.1 offre prestazioni migliori o equivalenti in numerose capacità chiave, a un costo e una latenza inferiori.

GPT-4.5 Preview sarà disattivato il 14 luglio 2025, dando agli sviluppatori il tempo necessario per la migrazione.

GPT-4.5 era stato introdotto come anteprima sperimentale per esplorare modelli di grandi dimensioni con alto consumo computazionale. Il feedback ricevuto dalla community ha contribuito all’evoluzione dei modelli futuri, mantenendo elementi apprezzati come creatività, qualità della scrittura, umorismo e sfumature espressive.


Prestazioni nei benchmark e coding

GPT-4.1 supera nettamente GPT-4o in una vasta gamma di attività di programmazione, inclusi:

  • risoluzione autonoma di problemi di coding,
  • sviluppo frontend,
  • riduzione di modifiche inutili,
  • aderenza ai formati diff,
  • uso coerente degli strumenti.
GPT-4.1 API
Per SWE-bench Verified, un modello riceve un repository di codice e una descrizione del problema e deve generare una patch per risolverlo. Le prestazioni dipendono fortemente dalle richieste e dagli strumenti utilizzati. Per aiutare a riprodurre e contestualizzare i risultati, descriviamo qui la configurazione per GPT-4.1. I punteggi non tengono conto di 23 dei 500 problemi le cui soluzioni non potevano essere eseguite sulla infrastruttura; se questi vengono prudentemente classificati come 0, il punteggio del 54,6% diventa 52,1%.

In questo benchmark, che misura le competenze di ingegneria software nel mondo reale, GPT-4.1 completa il 54,6% dei task, contro il 33,2% di GPT-4o (al 20 novembre 2024). Questo risultato riflette una maggiore capacità di esplorare repository di codice, portare a termine task e produrre codice funzionante e testabile.

Se si considerano anche i 23 problemi non eseguibili sulla propria infrastruttura (su 500), attribuendo loro un punteggio pari a zero, il punteggio si assesterebbe comunque su un solido 52,1%.

GPT-4.1 API
Nel benchmark poliglotta di Aider, i modelli risolvono gli esercizi di codifica di Exercism modificando i file sorgente, con un solo tentativo consentito. Il formato “intero” richiede che il modello riscriva l’intero file, il che può essere lento e costoso. Il formato “diff” richiede al modello di scrivere una serie di blocchi di ricerca/sostituzione.

GPT-4.1 più che raddoppia il punteggio di GPT-4o in questo benchmark, superando anche GPT-4.5 di 8 punti percentuali assoluti. Questo test valuta le capacità di programmazione multi-linguaggio e la capacità del modello di produrre modifiche in formato completo e differenziale. GPT-4.1 è stato appositamente addestrato per seguire i formati diff in modo affidabile, permettendo di ridurre costi e latenza evitando la riscrittura completa dei file.

Per la riscrittura completa, il limite di token in output è stato aumentato a 32.768 (rispetto ai 16.384 di GPT-4o). Si consiglia inoltre l’uso della funzione Predicted Outputs per ridurre la latenza.

GPT-4.1 mostra un notevole miglioramento nello sviluppo frontend. In confronti diretti valutati da revisori umani, i siti creati con GPT-4.1 sono stati preferiti rispetto a quelli di GPT-4o nell’80% dei casi, risultando più funzionali ed esteticamente curati.


Ecco la traduzione del testo in italiano, con il discorso riformulato alla terza persona singolare:


Esempi reali di utilizzo

Windsurf

Su benchmark interni di programmazione utilizzati da Windsurf, GPT-4.1 ottiene un punteggio superiore del 60% rispetto a GPT-4o. Tali benchmark sono fortemente correlati con la frequenza con cui le modifiche al codice vengono accettate già alla prima revisione. Gli utenti della piattaforma hanno rilevato che GPT-4.1 era più efficiente del 30% nell’utilizzo degli strumenti e circa il 50% meno incline a ripetere modifiche inutili o a leggere il codice in modo eccessivamente limitato e incrementale. Questi miglioramenti si traducono in iterazioni più rapide e flussi di lavoro più fluidi per i team di ingegneria.

Qodo

Qodo ha messo a confronto GPT-4.1 con altri modelli di punta nella generazione di revisioni di codice di alta qualità a partire da pull request su GitHub, utilizzando una metodologia ispirata al proprio benchmark di fine-tuning. Su un set di 200 pull request reali, mantenendo gli stessi prompt e condizioni, ha riscontrato che GPT-4.1 ha prodotto suggerimenti migliori nel 55% dei casi.

In particolare, GPT-4.1 si è distinto per:

  • Precisione: riconoscendo i casi in cui non era necessario fare alcuna osservazione;
  • Completezza: offrendo analisi approfondite quando richieste;
  • Capacità di focalizzarsi su problemi realmente critici, senza perdersi in dettagli marginali.

Affidabilità nel seguire istruzioni

GPT-4.1 dimostra miglioramenti significativi nella capacità di seguire istruzioni, rispetto a GPT-4o, come dimostrato da numerose valutazioni interne.

È stato sviluppato un sistema di valutazione proprietario per misurare la performance del modello in diverse categorie chiave di instruction following, tra cui:

  • Adesione a formati specifici: capacità di generare risposte in XML, YAML, Markdown, ecc.
  • Istruzioni negative: evitare comportamenti esplicitamente vietati (es. “Non chiedere all’utente di contattare l’assistenza”).
  • Istruzioni ordinate: seguire una sequenza precisa di passaggi (es. “Chiedi prima il nome, poi l’email”).
  • Requisiti di contenuto: includere informazioni specifiche richieste (es. “Indicare sempre la quantità di proteine in un piano alimentare”).
  • Ordinamento delle risposte: organizzare i risultati secondo un criterio definito (es. “Ordina per popolazione”).
  • Contenimento dell’eccessiva sicurezza: ammettere i limiti di conoscenza (es. “Se non sai la risposta, fornisci l’email del supporto”).

Queste categorie derivano direttamente dal feedback degli sviluppatori, che hanno evidenziato gli aspetti più rilevanti nell’uso pratico. Per ciascuna categoria, i test sono stati suddivisi in prompt semplici, medi e difficili. GPT-4.1 ha mostrato miglioramenti particolarmente evidenti sui prompt difficili, consolidando la propria affidabilità nel seguire istruzioni complesse.

GPT-4.1 API

Il seguire istruzioni su più turni è fondamentale per molti sviluppatori: è importante che il modello mantenga coerenza anche nelle fasi avanzate di una conversazione e sia in grado di ricordare le informazioni fornite dall’utente in precedenza. GPT-4.1 è stato addestrato per migliorare proprio in questo aspetto, riuscendo a recuperare con maggiore precisione i dati dai messaggi passati all’interno del dialogo, rendendo così le conversazioni più naturali.

Il benchmark MultiChallenge di Scale rappresenta una misura utile di questa capacità, e GPT-4.1 ottiene un miglioramento assoluto del 10,5% rispetto a GPT-4o.

GPT-4.1 API
In MultiChallenge i modelli vengono sfidati in conversazioni a più turni a utilizzare correttamente quattro tipi di informazioni provenienti da messaggi precedenti.

GPT-4.1 ottiene inoltre un punteggio dell’87,4% su IFEval, rispetto all’81,0% di GPT-4o.
Il benchmark IFEval utilizza prompt contenenti istruzioni verificabili, come ad esempio indicazioni sulla lunghezza del contenuto o l’obbligo di evitare determinati termini o formati.

GPT-4.1 API
In IFEval, i modelli devono generare risposte conformi a diverse istruzioni.

Ecco la traduzione in italiano, con il discorso riformulato alla terza persona singolare:


Migliore capacità di seguire istruzioni

Una maggiore affidabilità nell’esecuzione delle istruzioni rende le applicazioni esistenti più stabili e consente di svilupparne di nuove, precedentemente limitate proprio dalla bassa affidabilità.
I primi tester hanno osservato che GPT-4.1 tende a essere più letterale, pertanto si raccomanda di utilizzare prompt espliciti e specifici.
Per ulteriori indicazioni, è disponibile una guida dedicata alle prompting best practices per GPT-4.1.


Esempi reali

Blue J

Su un benchmark interno basato sugli scenari fiscali reali più complessi gestiti da Blue J, GPT-4.1 si è dimostrato più accurato del 53% rispetto a GPT-4o.
Questo miglioramento, cruciale sia per le prestazioni del sistema che per la soddisfazione degli utenti, mette in evidenza la maggiore capacità di GPT-4.1 nel comprendere normative complesse e nel seguire istruzioni sfumate in contesti lunghi.
Per gli utenti di Blue J, ciò si traduce in ricerche fiscali più rapide e affidabili e più tempo da dedicare ad attività consulenziali di alto valore.

Hex

Nel set di valutazione SQL più complesso di Hex, GPT-4.1 ha raddoppiato le prestazioni rispetto ai modelli precedenti, dimostrando progressi significativi nella comprensione semantica e nella corretta interpretazione delle istruzioni.
Il modello si è rivelato particolarmente affidabile nella selezione delle tabelle corrette all’interno di schemi ampi e ambigui, una fase cruciale che influenza direttamente l’accuratezza generale e che difficilmente può essere ottimizzata solo tramite il prompt.
Per Hex, questo ha significato una riduzione tangibile del debugging manuale e un passaggio più rapido a flussi di lavoro pronti per la produzione.


Contesto lungo

GPT-4.1, insieme alle varianti mini e nano, è in grado di gestire fino a 1 milione di token di contesto, rispetto ai 128.000 dei modelli GPT-4o precedenti.
Un milione di token equivale a più di otto copie dell’intero codice sorgente di React, rendendo questa capacità ideale per l’elaborazione di codebase di grandi dimensioni o lunghi documenti multipli.

GPT-4.1 è stato addestrato per gestire in modo affidabile informazioni distribuite lungo tutta la finestra di contesto. È stato inoltre ottimizzato per individuare con precisione le parti rilevanti del testo, ignorando elementi fuorvianti sia nei contesti brevi sia in quelli molto estesi.
Questa comprensione avanzata del contesto lungo è una competenza fondamentale per applicazioni in ambiti come il settore legale, la programmazione, l’assistenza clienti e molti altri.

A dimostrazione di ciò, GPT-4.1 è stato sottoposto a test di recupero di un piccolo frammento nascosto (la cosiddetta “ago nel pagliaio”) collocato in diverse posizioni all’interno della finestra di contesto. Il modello è stato in grado di recuperare con precisione l’informazione rilevante in qualsiasi punto, fino al limite di 1 milione di token, dimostrando una solida capacità di estrarre dettagli utili indipendentemente dalla loro posizione nell’input.

Nella valutazione interna dell’ago nel pagliaio, GPT-4.1, GPT-4.1 mini e GPT 4.1 nano sono tutti in grado di recuperare l’ago in tutte le posizioni del contesto fino a 1M.

Tuttavia, pochi compiti nel mondo reale sono semplici come recuperare una singola e ovvia informazione (“ago nel pagliaio”). Nella pratica, gli utenti hanno spesso bisogno che i modelli siano in grado di recuperare e comprendere più informazioni, mettendole in relazione tra loro.
Per dimostrare questa capacità, è stato reso open source un nuovo benchmark di valutazione: OpenAI-MRCR (Multi-Round Coreference).

Questo benchmark testa la capacità del modello di trovare e disambiguare tra più informazioni nascoste nel contesto.
L’eval consiste in conversazioni sintetiche multi-turno tra un utente e l’assistente, in cui l’utente chiede, ad esempio, di scrivere “una poesia sui tapiro” oppure “un post per il blog sulle rocce”. A questo punto, vengono inserite nel contesto due, quattro oppure otto richieste identiche.
Il modello deve poi recuperare la risposta corrispondente a una richiesta specifica, come ad esempio: “Dammi la terza poesia sui tapiri”.

La difficoltà deriva dalla somiglianza tra le richieste e il resto del contesto: il modello può facilmente essere ingannato da variazioni sottili, come una breve storia sui tapiri invece di una poesia, oppure una poesia sui rospi invece che sui tapiri.

GPT‑4.1 supera GPT‑4o in termini di accuratezza nel gestire contesti fino a 128.000 token, e mantiene prestazioni solide anche fino a 1 milione di token.

Tuttavia, il compito resta complesso, anche per i modelli dotati di capacità di ragionamento avanzato.
Per favorire lo sviluppo di soluzioni più robuste nel recupero di informazioni da contesti lunghi e realistici, è stato condiviso pubblicamente il dataset di valutazione.

OpenAI rilascia anche Graphwalks


È stato inoltre rilasciato Graphwalks, un dataset progettato per valutare la capacità di ragionamento multi-hop su contesti lunghi.
Molti casi d’uso degli sviluppatori che richiedono contesti estesi implicano più passaggi logici all’interno del contesto stesso, come ad esempio passare da un file all’altro durante la scrittura di codice, oppure mettere in relazione più documenti per rispondere a complesse domande legali.

A differenza di OpenAI-MRCR, che potrebbe teoricamente essere risolto da un modello (o da un essere umano) anche con una singola lettura sequenziale del prompt, Graphwalks è progettato per richiedere ragionamenti distribuiti in più punti del contesto e non può essere risolto con un approccio lineare.

Il dataset riempie la finestra di contesto con un grafo orientato, composto da hash esadecimali, e chiede al modello di eseguire una ricerca in ampiezza (BFS) partendo da un nodo casuale del grafo. Successivamente, viene chiesto al modello di restituire tutti i nodi a una certa profondità.

GPT-4.1 raggiunge un’accuratezza del 61,7% su questo benchmark, eguagliando le prestazioni del modello o1 e superando nettamente GPT-4o.


Non solo benchmark

OpenAI ha avviato una collaborazione con partner alpha per testare le prestazioni di GPT-4.1 su compiti reali che richiedono la gestione di contesti lunghi.


Esempi reali

Thomson Reuters

Thomson Reuters ha testato GPT-4.1 all’interno di CoCounsel, il proprio assistente AI professionale per l’ambito legale.
Rispetto a GPT-4o, l’accuratezza nella revisione multi-documento è migliorata del 17% quando è stato utilizzato GPT-4.1 nei benchmark interni su contesti estesi. Questo indicatore è essenziale per valutare la capacità di CoCounsel di gestire flussi di lavoro giuridici complessi, che coinvolgono numerosi documenti lunghi e articolati.

Il modello si è dimostrato particolarmente affidabile nel mantenere coerenza tra più fonti e nel identificare relazioni sfumate tra documenti, come ad esempio clausole in conflitto o contesto supplementare aggiuntivo—competenze fondamentali per l’analisi legale e il processo decisionale.

Carlyle

Carlyle ha impiegato GPT-4.1 per estrarre in modo accurato dati finanziari dettagliati da una molteplicità di documenti lunghi, inclusi file PDF, Excel e altri formati complessi.
Secondo le valutazioni interne, il modello ha ottenuto prestazioni migliori del 50% nell’estrazione di informazioni da documenti molto ampi e ricchi di dati, ed è stato il primo modello in grado di superare i principali limiti osservati con altre soluzioni, come:

  • il recupero di informazioni nascoste (“ago nel pagliaio”),
  • gli errori di perdita di contesto (“lost-in-the-middle”),
  • il ragionamento multi-hop tra documenti.

Velocità e ottimizzazione della latenza

Oltre all’accuratezza, gli sviluppatori necessitano di modelli che rispondano rapidamente per soddisfare le aspettative degli utenti.
L’infrastruttura di inferenza è stata ottimizzata per ridurre il tempo al primo token, e grazie al prompt caching è possibile abbattere ulteriormente la latenza e i costi.

Nei test iniziali, GPT-4.1 impiegava circa 15 secondi per restituire il primo token su prompt da 128.000 token, e circa un minuto per contesti da 1 milione di token.
I modelli GPT-4.1 mini e nano risultano più rapidi: in particolare, GPT-4.1 nano restituisce quasi sempre il primo token in meno di 5 secondi per richieste da 128.000 token in input.


Visione

La famiglia GPT-4.1 mostra prestazioni eccezionali nella comprensione delle immagini, con GPT-4.1 mini che rappresenta un vero e proprio salto di qualità, superando frequentemente GPT-4o nei benchmark visivi.

Anche le prestazioni sui contesti lunghi sono fondamentali per gli usi multimodali, come ad esempio l’elaborazione di video di lunga durata.
Nel benchmark Video-MME (categoria long w/o subs), il modello deve rispondere a domande a scelta multipla basandosi su video della durata di 30–60 minuti, privi di sottotitoli.
GPT-4.1 raggiunge prestazioni all’avanguardia, con un punteggio del 72,0%, in aumento rispetto al 65,3% di GPT-4o.

GPT-4.1, i prezzi

GPT‑4.1, insieme alle versioni mini e nano, è ora disponibile per tutti gli sviluppatori.

Grazie ai miglioramenti ottenuti nei sistemi di inferenza, è stato possibile ridurre i costi della serie GPT‑4.1. In particolare, GPT‑4.1 è il 26% meno costoso rispetto a GPT‑4o nelle richieste medie, mentre GPT‑4.1 nano rappresenta il modello più economico e veloce mai realizzato.

Per le richieste che riutilizzano ripetutamente lo stesso contesto, lo sconto per il prompt caching è stato aumentato al 75% (rispetto al 50% precedente) per questi nuovi modelli.

Infine, le richieste con contesto lungo non comportano costi aggiuntivi oltre al normale prezzo per token.

I risultati delle valutazioni accademiche

Di seguito è riportato l’elenco completo dei risultati delle valutazioni accademiche, di codifica, di istruzione successiva, di contesto lungo.

Articoli correlati

Articolo 1 di 4