ANALISI

AI benchmark in crisi: ecco come migliorare i test



Indirizzo copiato

Per migliorare i metodi con cui testiamo e valutiamo i modelli di intelligenza artificiale, il settore guarda alle scienze sociali. Con benchmark sempre più manipolabili e metriche poco affidabili, un nuovo approccio basato sulla validità potrebbe rivoluzionare la misurazione delle reali capacità dei modelli AI

Pubblicato il 9 mag 2025



benchmark

Non è facile essere uno dei benchmark preferiti della Silicon Valley.

SWE-Bench (pronunciato “swee bench”) è stato lanciato nel novembre 2024 per valutare la capacità di programmazione dei modelli AI, utilizzando oltre 2mila problemi di programmazione reali tratti da repository pubblici GitHub di 12 diversi progetti basati su Python.

Da allora, è rapidamente diventato uno dei test più popolari nell’ambito dell’intelligenza artificiale. Il punteggio in SWE-Bench è ormai una costante nelle presentazioni di nuovi modelli di OpenAI, Anthropic e Google. Anche oltre i foundation model, le aziende che effettuano fine-tuning sono in costante competizione per conquistare la vetta. In cima alla classifica, si contendono il primato tre versioni affinate del modello Claude Sonnet di Anthropic e l’agente Q per sviluppatori di Amazon. Auto Code Rover – una delle varianti di Claude – ha conquistato il secondo posto a novembre ed è stata acquisita solo tre mesi dopo.

L’ascesa (e le contraddizioni) di SWE-Bench

Nonostante tutto questo entusiasmo, il benchmark non rappresenta necessariamente una valutazione veritiera di quale modello sia “migliore”. Con il crescere della sua popolarità, “si comincia a vedere che le persone vogliono davvero conquistare il primo posto”, afferma John Yang, ricercatore del team che ha sviluppato SWE-Bench all’Università di Princeton. Di conseguenza, i partecipanti hanno iniziato a sfruttare il sistema, spingendo molti a chiedersi se esista un modo migliore per misurare i progressi dell’AI.


Modelli ottimizzati per vincere (ma non per generalizzare)

Gli sviluppatori di questi agenti di codifica non stanno necessariamente barando in senso stretto, ma stanno progettando approcci troppo adattati alle specificità del benchmark. Il set iniziale di test di SWE-Bench era limitato a programmi scritti in Python, e questo ha permesso ai team di ottenere un vantaggio addestrando i modelli esclusivamente con codice Python.

Presto Yang ha notato che i modelli con punteggi elevati fallivano completamente se testati con altri linguaggi di programmazione, rivelando un approccio che descrive come “dorato”.
“A prima vista sembra bello e brillante, ma poi si prova a eseguirlo in un altro linguaggio e tutto crolla”, spiega. “A quel punto, non stai progettando un agente di ingegneria del software. Stai progettando un agente per superare SWE-Bench, che è molto meno interessante.”

1. Install a Repository

La crisi di valutazione: quando i benchmark perdono valore

Il problema di SWE-Bench è un sintomo di un problema più ampio e complesso nella valutazione dell’intelligenza artificiale, che sta sempre più alimentando un acceso dibattito: i benchmark utilizzati dall’industria per orientare lo sviluppo si stanno allontanando dalla misurazione delle reali capacità, mettendo in discussione il loro valore fondamentale.

A peggiorare la situazione, alcuni benchmark come FrontierMath e Chatbot Arena sono stati recentemente criticati per la loro presunta mancanza di trasparenza. Nonostante ciò, i benchmark continuano a svolgere un ruolo centrale nello sviluppo dei modelli, anche se pochi esperti si fidano ciecamente dei risultati.

benchmark

Andrej Karpathy, cofondatore di OpenAI, ha recentemente descritto la situazione come “una crisi di valutazione”: l’industria ha sempre meno metodi affidabili per misurare le capacità e nessun percorso chiaro verso soluzioni migliori.

“Storicamente, i benchmark erano il modo in cui valutavamo i sistemi di intelligenza artificiale. È questo il modo in cui vogliamo continuare a valutarli? E se non lo è, qual è l’alternativa?”, si chiede Vanessa Parli, direttrice della ricerca presso lo Stanford Institute for Human-Centered AI.


Dalla tecnologia alle scienze sociali

Un gruppo crescente di accademici e ricercatori sta sostenendo che la risposta sia ridimensionare l’approccio, abbandonando l’ambizione generalista in favore di un metodo ispirato alle scienze sociali.

In particolare, propongono di concentrarsi di più sulla validità, che per le scienze sociali quantitative indica quanto bene uno strumento misura ciò che afferma di misurare, e, più in profondità, se ciò che misura abbia una definizione coerente.

“Prendere sul serio la validità significa chiedere a chi lavora nel mondo accademico, nell’industria o altrove di dimostrare che il proprio sistema fa ciò che afferma di fare”, dice Abigail Jacobs, professoressa all’Università del Michigan, tra le figure centrali di questo nuovo orientamento. “Penso che sia un segnale di debolezza del mondo dell’AI se si vuole evitare di dimostrare che si è in grado di sostenere ciò che si afferma.”


I limiti dei test tradizionali

Perché le aziende AI sono così lente a reagire? In parte perché per molto tempo il modello dei punteggi ha funzionato bene.

Uno dei primi grandi successi dell’AI moderna è stato la sfida ImageNet, lanciata nel 2010 come competizione pubblica per classificare oltre 3 milioni di immagini in 1.000 categorie. L’algoritmo AlexNet, nel 2012, ha superato ogni aspettativa grazie a una forma innovativa di addestramento con GPU, diventando un risultato fondativo per l’AI.

Il motivo per cui ImageNet ha funzionato così bene? Non c’era quasi differenza tra l’attività richiesta dal test e la reale funzione di riconoscere un’immagine. Ma oggi i benchmark vengono usati per valutare capacità molto più ampie: SWE-Bench come indicatore di capacità di programmazione, MMLU per la logica o la conoscenza. Questa generalizzazione rende più difficile definire cosa stia davvero misurando un benchmark, e quindi usarne i risultati con responsabilità.


Quando i test si “spezzano”

Anka Reuel, dottoranda a Stanford, è convinta che il problema derivi proprio da questa spinta alla generalità. “Siamo passati da modelli specifici per un compito a modelli a scopo generale”, dice. “Non si tratta più di un singolo task, ma di un insieme, e quindi valutare diventa più difficile.”

Come Jacobs, anche Reuel ritiene che “il problema principale dei benchmark sia la validità, più ancora che l’implementazione pratica”. In attività complesse come la programmazione, è quasi impossibile includere ogni possibile scenario nel set di test. Questo rende difficile capire se un modello ottiene un punteggio alto per abilità reale o per abilità nel manipolare il test.


Le scorciatoie degli agenti AI

Sayash Kapoor, informatico a Princeton, ha criticato l’approccio dei modelli AI al benchmark WebArena, ideato da Carnegie Mellon per testare la capacità di navigazione web. Ha individuato un trucco nel modello vincente STeP, che sfruttava la conoscenza degli URL di Reddit per saltare direttamente ai profili utente.

“Una rappresentazione distorta di quanto bene avrebbe funzionato l’agente se avesse visto i task di WebArena per la prima volta”, afferma Kapoor. Nonostante ciò, il trucco è stato ripreso anche dall’agente web Operator di OpenAI. “Il nostro ambiente di valutazione è progettato per valutare quanto bene un agente riesce a risolvere i compiti, partendo da alcune istruzioni sulla struttura dei siti web e sull’esecuzione dei task”, ha dichiarato un portavoce di OpenAI.

Anche Chatbot Arena, il sistema di valutazione open source più popolare, è stato recentemente accusato di manipolazioni nella classifica, test privati non dichiarati e selezione dei risultati.


BetterBench: il ritorno al concreto

Nel novembre 2024, Reuel ha lanciato BetterBench, una classifica pubblica che valuta i benchmark su decine di criteri, tra cui la disponibilità del codice e, soprattutto, la validità. “Quali sono le competenze concrete che ti interessano e come le trasformi in qualcosa che possiamo misurare?”, chiede Reuel.

Risultati sorprendenti: il benchmark con punteggio più alto è Arcade Learning Environment (ALE), del 2013, che misura la capacità di giocare a videogiochi Atari. Tra i peggiori c’è MMLU, nonostante il suo ampio uso, per una definizione troppo vaga delle abilità testate.


La validità come fondamento

Ad aprile, Reuel ha aderito a un nuovo gruppo di ricerca promosso da Hugging Face, Università di Edimburgo ed EleutherAI, per sviluppare il concetto di validità nella valutazione dei modelli. Irene Solaiman, responsabile globale delle policy di Hugging Face, ha dichiarato: “C’è una fame enorme per un benchmark pronto all’uso che funzioni già bene”. Ma molti benchmark oggi “cercano di fare troppo”.

Anche altri grandi attori iniziano a cambiare prospettiva: in un paper di marzo, Google, Microsoft, Anthropic e altri propongono una nuova struttura per le valutazioni, con la validità come punto di partenza. “La scienza della valutazione dell’AI deve andare oltre affermazioni grossolane sull’‘intelligenza generale’ per orientarsi verso misure di progresso più specifiche e rilevanti per il mondo reale”, scrivono.


Un cambio di paradigma ispirato alle scienze sociali

Un position paper di febbraio afferma che “valutare i sistemi di intelligenza artificiale generativa è una sfida di misurazione delle scienze sociali”. Gli autori – principalmente da Microsoft Research, Stanford e Michigan – propongono di usare gli stessi metodi usati per misurare concetti complessi come “ideologia” o “democrazia”.

Nel contesto AI, ciò significa definire con rigore cosa si intende, ad esempio, per “abilità di ragionamento” e costruire domande che la riflettano realmente. Per SWE-Bench, ciò implicherebbe abbandonare il classico approccio da machine learning per costruire una struttura concettuale chiara prima ancora dei task.

“C’è una discrepanza tra ciò che accade nell’industria tecnologica e questi strumenti delle scienze sociali”, osserva Jacobs. “Abbiamo decenni di riflessione su come misurare questi aspetti sfuggenti dell’essere umano.”


Il progresso veloce perdona tutto?

Nonostante il crescente interesse accademico, le aziende continuano a pubblicare i loro modelli basandosi su benchmark generalisti come MMLU.

Ethan Mollick, professore alla Wharton School, riassume la situazione con pragmatismo: “I benchmark sono cattive misure delle cose, ma sono anche tutto ciò che abbiamo”. E aggiunge: “Molti peccati sono perdonati dai rapidi progressi”.

Per ora, l’attenzione sull’intelligenza generale artificiale continua a oscurare approcci più precisi. “È troppo facile buttare via il sistema, ma le valutazioni sono davvero utili per capire i nostri modelli, anche con questi limiti”, conclude Solaiman.


Articoli correlati