tecnologia

SWE-bench Verified non misura più le capacità di coding di frontiera. Quale alternativa?



Indirizzo copiato

Lo ha annunciato OpenAI: non è più un indicatore affidabile del progresso nelle capacità di software engineering autonome. Due fattori lo rendono sempre più “rumoroso”: test che respingono soluzioni funzionalmente corrette e contaminazione da dati pubblici usati in training. Per confronti tra modelli e tracking del progresso, la raccomandazione passa a SWE-bench Pro

Pubblicato il 25 feb 2026

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy



SWE-bench Verified

SWE-bench Verified è stato, per circa un anno e mezzo, il riferimento più citato per stimare quanto un modello fosse in grado di risolvere issue reali su repository Python: si parte dal testo di un issue e dallo stato del repo prima della fix, il modello produce una patch e “passa” solo se l’intera suite di test va in verde. OpenAI lo aveva pubblicato nell’agosto 2024 come sottoinsieme curato di SWE-bench, con l’obiettivo di rimuovere casi intrinsecamente ambigui o tecnicamente impossibili da chiudere con i soli indizi presenti nella descrizione del problema.

Nel febbraio 2026 OpenAI dichiara però che, ai livelli di performance attuali, SWE-bench Verified ha perso la capacità di discriminare miglioramenti reali. I punteggi si muovono ancora (da 74,9% a 80,9% in sei mesi), ma la correlazione con la qualità effettiva del lavoro “da ingegnere” in scenari non viziati si indebolisce. Il benchmark diventa sempre più sensibile a fattori estranei: qualità dei test e memoria di training.

Continua a leggere questo articolo

Articoli correlati

0
Lascia un commento, la tua opinione conta.x