AI GENERATIVA

I benchmark sugli agenti di intelligenza artificiale sono fuorvianti



Indirizzo copiato

Un recente studio condotto dai ricercatori dell’Università di Princeton ha rivelato diverse carenze nelle pratiche di valutazione degli agenti, che ne ostacolano l’utilità nelle applicazioni reali. Non è possibile valutarli nello stesso modo in cui si valutano i modelli di fondazione

Pubblicato il 9 lug 2024



AI benchmark

Gli agenti di intelligenza artificiale stanno diventando una nuova promettente direzione di ricerca con potenziali applicazioni nel mondo reale. Questi agenti utilizzano modelli di base come i modelli linguistici di grandi dimensioni (LLM) e i modelli linguistici di visione (VLM) per prendere istruzioni in linguaggio naturale e perseguire obiettivi complessi in modo autonomo o semi-autonomo. Gli agenti di intelligenza artificiale possono utilizzare vari strumenti come browser, motori di ricerca e compilatori di codice per verificare le loro azioni e ragionare sui loro obiettivi.

Continua a leggere questo articolo

Articoli correlati