Negli ultimi due anni il dibattito sull’intelligenza artificiale si è concentrato soprattutto sulle capacità dei modelli generativi: prestazioni sempre più elevate, agenti autonomi, multimodalità, coding avanzato e automazione cognitiva. Ma mentre l’attenzione pubblica resta focalizzata su ciò che l’AI è in grado di fare, nel mondo della ricerca e della governance sta emergendo una domanda ancora più importante: come possiamo fidarci delle valutazioni che misurano queste capacità e questi rischi?
analisi
Modelli AI avanzati: valutazioni di terze parti più trasparenti per misurare rischi e capacità
La crescita dei modelli AI frontier rende insufficienti benchmark generici e test basati solo su prompt e risposta. Secondo OpenAI le valutazioni indipendenti devono distinguere tra capacità, confronti e robustezza delle safeguard, mostrando anche come sono esclusi errori di misura, scorciatoie, rifiuti, contaminazioni e problemi irrisolvibili
giornalista

Continua a leggere questo articolo
Argomenti
Canali





