AI GENERATIVA

I benchmark sugli agenti di intelligenza artificiale sono fuorvianti



Indirizzo copiato

Un recente studio condotto dai ricercatori dell’Università di Princeton ha rivelato diverse carenze nelle pratiche di valutazione degli agenti, che ne ostacolano l’utilità nelle applicazioni reali. Non è possibile valutarli nello stesso modo in cui si valutano i modelli di fondazione

Pubblicato il 9 lug 2024



AI benchmark

Gli agenti di intelligenza artificiale stanno diventando una nuova promettente direzione di ricerca con potenziali applicazioni nel mondo reale. Questi agenti utilizzano modelli di base come i modelli linguistici di grandi dimensioni (LLM) e i modelli linguistici di visione (VLM) per prendere istruzioni in linguaggio naturale e perseguire obiettivi complessi in modo autonomo o semi-autonomo. Gli agenti di intelligenza artificiale possono utilizzare vari strumenti come browser, motori di ricerca e compilatori di codice per verificare le loro azioni e ragionare sui loro obiettivi.

Tuttavia, una recente analisi condotta dai ricercatori dell’Università di Princeton ha rivelato diverse carenze negli attuali benchmark e nelle pratiche di valutazione degli agenti, che ne ostacolano l’utilità nelle applicazioni reali.

I risultati evidenziano che il benchmarking degli agenti presenta sfide specifiche e che non possiamo valutare gli agenti nello stesso modo in cui valutiamo i modelli di fondazione.

Mancanza di controllo dei costi nelle valutazioni degli agenti nei benchmark AI

Un problema importante evidenziato dai ricercatori nel loro studio è la mancanza di controllo dei costi nelle valutazioni degli agenti. Gli agenti di intelligenza artificiale possono essere molto più costosi da eseguire rispetto a una singola chiamata al modello, poiché spesso si basano su modelli linguistici stocastici che possono produrre risultati diversi quando si riceve la stessa richiesta più volte.

Per aumentare l’accuratezza, alcuni sistemi agenziali generano diverse risposte e utilizzano meccanismi come la votazione o strumenti di verifica esterni per scegliere la risposta migliore. A volte il campionamento di centinaia o migliaia di risposte può aumentare l’accuratezza dell’agente. Sebbene questo approccio possa migliorare le prestazioni, comporta un costo computazionale significativo. I costi di inferenza non sono sempre un problema in contesti di ricerca, dove l’obiettivo è massimizzare l’accuratezza.

Visualizzare i risultati della valutazione come una curva di Pareto dell’accuratezza

Tuttavia, nelle applicazioni pratiche, c’è un limite al budget disponibile per ogni query, il che rende cruciale che le valutazioni degli agenti siano controllate dai costi. In caso contrario, i ricercatori potrebbero essere incoraggiati a sviluppare agenti estremamente costosi solo per raggiungere i primi posti in classifica. I ricercatori di Princeton propongono di visualizzare i risultati della valutazione come una curva di Pareto dell’accuratezza e del costo dell’inferenza e di utilizzare tecniche che ottimizzino congiuntamente l’agente per queste due metriche.

I ricercatori hanno valutato i compromessi accuratezza-costo di diverse tecniche di prompting e modelli agenziali introdotti in diversi articoli.

“Per una precisione sostanzialmente simile, il costo può differire di quasi due ordini di grandezza”, scrivono i ricercatori. “Eppure, il costo di gestione di questi agenti non è una metrica top-line riportata in nessuno di questi documenti”.

I ricercatori sostengono che l’ottimizzazione di entrambe le metriche può portare a “agenti che costano meno pur mantenendo la precisione”. L’ottimizzazione congiunta può anche consentire ai ricercatori e agli sviluppatori di scambiare i costi fissi e variabili della gestione di un agente. Ad esempio, possono spendere di più per ottimizzare la progettazione dell’agente, ma ridurre il costo variabile utilizzando un minor numero di esempi di apprendimento in contesto nel prompt dell’agente.

HotpotQA per testare l’ottimizzazione congiunta

I ricercatori hanno testato l’ottimizzazione congiunta su HotpotQA, un popolare benchmark per la risposta alle domande (un set di dati per la risposta a domande naturali e multi-hop, con una forte supervisione per i fatti di supporto per consentire sistemi di risposta a domande più spiegabili. È stato raccolto da un team di ricercatori di PNL della Carnegie Mellon University, della Stanford University e dell’Università di Montréal). I risultati mostrano che la formulazione dell’ottimizzazione congiunta fornisce un modo per raggiungere un equilibrio ottimale tra accuratezza e costi di inferenza.

“Le valutazioni utili degli agenti devono tenere conto dei costi, anche se alla fine non ci interessa il costo e ci interessa solo identificare progetti innovativi di agenti”, scrivono i ricercatori. “L’accuratezza da sola non è in grado di identificare il progresso, perché può essere migliorata con metodi scientificamente insignificanti come la ripetizione dei test”.

Sviluppo di modelli e applicazioni a valle

Un’altra questione evidenziata dai ricercatori è la differenza tra la valutazione dei modelli a scopo di ricerca e lo sviluppo di applicazioni a valle. Nella ricerca, l’accuratezza è spesso l’obiettivo principale e i costi di inferenza sono ampiamente ignorati. Tuttavia, quando si sviluppano applicazioni reali su agenti di intelligenza artificiale, i costi di inferenza giocano un ruolo cruciale nel decidere quale modello e quale tecnica utilizzare.

La valutazione dei costi di inferenza per gli agenti di intelligenza artificiale è impegnativa. Ad esempio, diversi fornitori di modelli possono addebitare importi diversi per lo stesso modello. Inoltre, i costi delle chiamate API cambiano regolarmente e possono variare in base alle decisioni degli sviluppatori. Ad esempio, su alcune piattaforme, le chiamate API di massa vengono addebitate in modo diverso.

Per risolvere questo problema, i ricercatori hanno creato un sito web che regola i confronti tra i modelli in base ai prezzi dei gettoni.

Hanno inoltre condotto un caso di studio su NovelQA, un benchmark per compiti di risposta a domande su testi molto lunghi. Hanno scoperto che i benchmark destinati alla valutazione dei modelli possono essere fuorvianti se utilizzati per la valutazione a valle. Ad esempio, lo studio originale di NovelQA fa sembrare la retrieval-augmented generation (RAG) molto peggiore dei modelli a contesto lungo di quanto non sia in uno scenario reale. I loro risultati mostrano che i modelli RAG e quelli a contesto lungo sono più o meno ugualmente precisi, mentre i modelli a contesto lungo sono 20 volte più costosi.

L’overfitting è un problema

Nell’apprendimento di nuovi compiti, i modelli di apprendimento automatico (ML) spesso trovano scorciatoie che consentono loro di ottenere buoni risultati nei benchmark. Un tipo importante di scorciatoia è l'”overfitting“, in cui il modello trova il modo di imbrogliare nei test di benchmark e fornisce risultati che non si traducono nel mondo reale. I ricercatori hanno scoperto che l’overfitting è un problema serio per i benchmark degli agenti, poiché tendono a essere piccoli, in genere composti da poche centinaia di campioni. Questo problema è più grave della contaminazione dei dati nell’addestramento dei modelli di fondazione, poiché la conoscenza dei campioni di prova può essere programmata direttamente nell’agente.

Per risolvere questo problema, i ricercatori suggeriscono agli sviluppatori di benchmark di creare e mantenere set di test di attesa, composti da esempi che non possono essere memorizzati durante l’addestramento e che possono essere risolti solo attraverso una corretta comprensione del compito target. Nell’analisi di 17 benchmark, i ricercatori hanno riscontrato che molti di essi non disponevano di set di dati di attesa adeguati, consentendo agli agenti di prendere scorciatoie, anche involontariamente.

“Sorprendentemente, abbiamo scoperto che molti benchmark di agenti non includono set di test tenuti segreti”, scrivono i ricercatori. “Oltre a creare un set di test, gli sviluppatori di benchmark dovrebbero considerare la possibilità di mantenerlo segreto per evitare la contaminazione dell’LLM o l’overfitting degli agenti”.

Inoltre, sono necessari diversi tipi di campioni di attesa in base al livello di generalità desiderato del compito che l’agente svolge.

“Gli sviluppatori di benchmark devono fare del loro meglio per garantire che le scorciatoie siano impossibili”, scrivono i ricercatori. “Consideriamo questa responsabilità degli sviluppatori di benchmark piuttosto che degli sviluppatori di agenti, perché progettare benchmark che non permettano scorciatoie è molto più facile che controllare ogni singolo agente per vedere se prende scorciatoie”.

Testato anche WebArena

I ricercatori hanno testato WebArena, un benchmark che valuta le prestazioni degli agenti di intelligenza artificiale nella risoluzione di problemi con diversi siti web. Hanno trovato diverse scorciatoie nei dataset di addestramento che hanno permesso agli agenti di adattarsi eccessivamente ai compiti in modi che si sarebbero facilmente rotti con piccoli cambiamenti nel mondo reale. Ad esempio, l’agente poteva formulare ipotesi sulla struttura degli indirizzi web senza considerare che avrebbe potuto cambiare in futuro o che non avrebbe funzionato su siti web diversi.

Questi errori gonfiano le stime di accuratezza e portano a un eccessivo ottimismo sulle capacità degli agenti, avvertono i ricercatori.

Conclusioni

Essendo gli agenti di intelligenza artificiale un campo nuovo, le comunità di ricercatori e sviluppatori hanno ancora molto da imparare su come testare i limiti di questi nuovi sistemi che potrebbero presto diventare una parte importante delle applicazioni quotidiane.

“Il benchmarking degli agenti di AI è nuovo e le migliori pratiche non sono ancora state stabilite, il che rende difficile distinguere i veri progressi dal clamore”, scrivono i ricercatori. “La nostra tesi è che gli agenti sono sufficientemente diversi dai modelli da richiedere un ripensamento delle pratiche di benchmarking”.

Articoli correlati

Articolo 1 di 4