AI GENERATIVA

Ecco Gaia, benchmark per l’AI di nuova generazione

Lo hanno messo a punto i ricercatori di Meta, Hugging Face, AutoGPT e GenAI. Un modello che lo risolvesse al cento per cento potrebbe essere considerato un’intelligenza artificiale generale (AGI)

Pubblicato il 29 nov 2023

Pierluigi Sandonnini

giornalista

Gaia è il nome di un nuovo benchmark di intelligenza artificiale che mira a valutare se i chatbot come ChatGPT sono in grado di dimostrare un ragionamento e una competenza simili a quelli umani nei compiti quotidiani.

Creato dai ricercatori di Meta, Hugging Face, AutoGPT e GenAI, il benchmark “propone domande del mondo reale che richiedono una serie di abilità fondamentali come il ragionamento, la gestione della multi-modalità, la navigazione sul web e in generale la competenza nell’uso degli strumenti”, scrivono i ricercatori in un documento pubblicato su arXiv.

Indice degli argomenti:

Gaia si concentra su competenze simili a quelle umane

Secondo i ricercatori, le domande di Gaia sono “concettualmente semplici per gli esseri umani, ma impegnative per le AI più avanzate”. Hanno testato il benchmark su intervistati umani e GPT-4, scoprendo che gli umani hanno ottenuto un punteggio del 92%, mentre GPT-4 con i plugin ha ottenuto solo il 15%.

“Questa notevole disparità di prestazioni contrasta con la recente tendenza dei LLM a superare gli esseri umani in compiti che richiedono competenze professionali, ad esempio in legge o in chimica”, si legge nel documento.

Piuttosto che concentrarsi su compiti difficili per gli esseri umani, i ricercatori suggeriscono che i benchmark dovrebbero essere mirati a compiti che dimostrino che un sistema di AI ha una robustezza simile a quella dell’uomo medio.

Gaia, 466 domande del mondo reale con risposte univoche

La metodologia Gaia ha portato i ricercatori a ideare 466 domande del mondo reale con risposte univoche. Trecento risposte vengono conservate privatamente per alimentare una classifica pubblica di Gaia, mentre 166 domande e risposte sono state rilasciate come set di sviluppo.

“Risolvere Gaia rappresenterebbe una pietra miliare nella ricerca sull’AI”, ha dichiarato l’autore principale Grégoire Mialon di Meta AI.

credit: arxiv.org

Il divario di prestazioni tra uomo e AI

Finora, il punteggio principale di Gaia appartiene a GPT-4 con plugin selezionati manualmente, con un’accuratezza del 30%. I creatori del benchmark hanno dichiarato che un sistema che risolve Gaia potrebbe essere considerato un’intelligenza artificiale generale entro un periodo di tempo ragionevole.

“I compiti che sono difficili per gli esseri umani non sono necessariamente difficili per i sistemi recenti”, si legge nel documento, che critica la pratica comune di testare le IA su esami complessi di matematica, scienze e legge.

Invece, Gaia si concentra su domande come: “Quale città ha ospitato l’Eurovision Song Contest del 2022 secondo il sito ufficiale?” e “Quante immagini ci sono nell’ultimo articolo Lego di Wikipedia sul 2022?”.

“Riteniamo che l’avvento dell’Intelligenza Generale Artificiale (AGI) dipenda dalla capacità di un sistema di mostrare una robustezza simile a quella dell’uomo medio su tali questioni”, hanno scritto i ricercatori.

Gaia potrebbe influenzare il futuro dell’AI

Il rilascio di Gaia rappresenta una nuova ed entusiasmante direzione per la ricerca sull’AI che potrebbe avere ampie implicazioni. Concentrandosi su una competenza simile a quella umana nelle attività quotidiane, piuttosto che su competenze specialistiche, Gaia spinge il campo al di là dei più ristretti parametri di riferimento dell’AI.

Se i sistemi futuri saranno in grado di dimostrare un buon senso, un’adattabilità e un ragionamento di livello umano, come misurato da Gaia, si potrà dire che avranno raggiunto un’intelligenza artificiale generale (AGI) in senso pratico. Ciò potrebbe accelerare la diffusione di assistenti, servizi e prodotti di intelligenza artificiale.

Per i ricercatori la strada verso l’AGI è ancora lunga

Tuttavia, gli autori avvertono che i chatbot di oggi hanno ancora molta strada da fare per risolvere Gaia. Le loro prestazioni mostrano gli attuali limiti nel ragionamento, nell’uso degli strumenti e nella gestione di diverse situazioni del mondo reale.

Man mano che i ricercatori affrontano la sfida di Gaia, i loro risultati riveleranno i progressi compiuti nel rendere i sistemi di AI più capaci, generali e affidabili. Ma i benchmark come Gaia portano anche a riflettere su come modellare l’AI a beneficio dell’umanità.

Oltre a guidare i progressi tecnici, Gaia potrebbe aiutare a guidare l’AI in una direzione che enfatizzi i valori umani condivisi come l’empatia, la creatività e il giudizio etico.

È possibile visualizzare la classifica dei benchmark GAIA qui per vedere quale LLM di nuova generazione sta attualmente ottenendo le migliori prestazioni in questa valutazione.

@RIPRODUZIONE RISERVATA