tecnologia

SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa?

Lo ha annunciato OpenAI: non è più un indicatore affidabile del progresso nelle capacità di software engineering autonome. Due fattori lo rendono sempre più “rumoroso”: test che respingono soluzioni funzionalmente corrette e contaminazione da dati pubblici usati in training. Per confronti tra modelli e tracking del progresso, la raccomandazione passa a SWE-bench Pro

Pubblicato il 25 feb 2026

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

SWE-bench Verified è stato, per circa un anno e mezzo, il riferimento più citato per stimare quanto un modello fosse in grado di risolvere issue reali su repository Python: si parte dal testo di un issue e dallo stato del repo prima della fix, il modello produce una patch e “passa” solo se l’intera suite di test va in verde. OpenAI lo aveva pubblicato nell’agosto 2024 come sottoinsieme curato di SWE-bench, con l’obiettivo di rimuovere casi intrinsecamente ambigui o tecnicamente impossibili da chiudere con i soli indizi presenti nella descrizione del problema.

Nel febbraio 2026 OpenAI dichiara però che, ai livelli di performance attuali, SWE-bench Verified ha perso la capacità di discriminare miglioramenti reali. I punteggi si muovono ancora (da 74,9% a 80,9% in sei mesi), ma la correlazione con la qualità effettiva del lavoro “da ingegnere” in scenari non viziati si indebolisce. Il benchmark diventa sempre più sensibile a fattori estranei: qualità dei test e memoria di training.

@RIPRODUZIONE RISERVATA

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

Fabio Lalli è consulente in innovazione e AI, con oltre venticinque anni di esperienza nello sviluppo di prodotti digitali e nella trasformazione delle organizzazioni.

Ha fondato diverse realtà nel corso della sua carriera e completato un exit imprenditoriale nel settore digitale. Oggi guida Iconico, società specializzata nel supporto a startup e imprese nei processi di crescita, validazione di prodotto e go-to-market, e ZeroFive.ai, studio di consulenza strategica focalizzato sull’adozione dell’AI e sulla progettazione di architetture e modelli operativi aumentati dall’intelligenza artificiale.

Collabora con aziende di diversi settori su temi di AI transformation, modelli organizzativi, framework decisionali e misurazione dell’impatto economico delle tecnologie emergenti.

Continua a leggere questo articolo

Argomenti

Canali

SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa?

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

Continua a leggere questo articolo

Articoli correlati

ChatGPT: come funziona il chatbot di OpenAI

Codice Rss

Codice Rss