Negli ultimi due anni il dibattito sull’intelligenza artificiale si è concentrato soprattutto sulle capacità dei modelli generativi: prestazioni sempre più elevate, agenti autonomi, multimodalità, coding avanzato e automazione cognitiva. Ma mentre l’attenzione pubblica resta focalizzata su ciò che l’AI è in grado di fare, nel mondo della ricerca e della governance sta emergendo una domanda ancora più importante: come possiamo fidarci delle valutazioni che misurano queste capacità e questi rischi?
La questione non è marginale. Oggi gran parte delle decisioni normative, industriali e strategiche relative all’AI dipende dai risultati di benchmark, audit, red teaming e valutazioni di sicurezza. Se queste valutazioni non sono robuste, indipendenti e replicabili, anche le conclusioni che ne derivano rischiano di essere fuorvianti.
Per questo motivo cresce il consenso attorno alla necessità di sviluppare un ecosistema di third-party evaluations, ossia valutazioni indipendenti condotte da soggetti esterni rispetto ai produttori dei modelli. Un tema che sta diventando centrale sia nella ricerca internazionale sia nelle discussioni regolatorie che accompagnano l’attuazione dell’AI Act europeo e al quale OpenAI ha dedicato uno studio datato 29 maggio 2026.
Indice degli argomenti:
Il limite delle valutazioni interne
Per anni il settore ha operato secondo un modello relativamente semplice: i laboratori che sviluppano i modelli effettuano test interni e pubblicano report sulle performance ottenute.
Questo approccio presenta tuttavia almeno tre criticità.
La prima riguarda il conflitto di interessi. Un’organizzazione che investe miliardi nello sviluppo di un modello potrebbe non essere il soggetto più adatto a valutarne in maniera completamente neutrale limiti e vulnerabilità.
La seconda riguarda la trasparenza. Molti benchmark utilizzati dalle aziende non sono integralmente pubblici oppure vengono eseguiti in condizioni difficilmente replicabili da ricercatori esterni.
La terza riguarda la velocità dell’innovazione. I modelli evolvono talmente rapidamente che le metodologie di valutazione rischiano di diventare obsolete nel giro di pochi mesi.
Diversi studi recenti hanno evidenziato come le valutazioni condotte direttamente dai produttori siano spesso incomplete rispetto agli impatti sociali, etici e sistemici dell’intelligenza artificiale. Una vasta analisi pubblicata nel 2025 ha esaminato centinaia di report di valutazione, rilevando che le aziende tendono a fornire informazioni limitate su aspetti come bias, impatto ambientale, provenienza dei dati e condizioni di lavoro legate alla costruzione dei modelli.
In parallelo, ricercatori indipendenti, università e organizzazioni non profit stanno assumendo un ruolo sempre più importante nell’identificazione di vulnerabilità, comportamenti inattesi e rischi emergenti. (Fonte: arXiv)
L’importanza delle valutazioni indipendenti
Il concetto di third-party evaluation nasce da una constatazione semplice: per comprendere realmente l’affidabilità di un sistema complesso è necessario che soggetti diversi possano verificarne il comportamento.
Il principio non è nuovo.
Nel settore finanziario esistono società di revisione indipendenti. Nel mondo della cybersicurezza esistono penetration test e programmi di vulnerability disclosure. In ambito farmaceutico operano enti regolatori che verificano risultati e sperimentazioni.
L’intelligenza artificiale sta attraversando una fase analoga.
Secondo numerosi ricercatori, i sistemi AI avanzati richiedono infrastrutture di verifica indipendenti capaci di produrre risultati riproducibili e comparabili tra diversi modelli.
L’obiettivo non è sostituire le valutazioni interne ma affiancarle con meccanismi di controllo esterni che aumentino la fiducia dell’ecosistema.
Per le imprese che adottano soluzioni AI, questo aspetto assume una rilevanza crescente. La semplice disponibilità di benchmark pubblicati dal vendor potrebbe non essere sufficiente per dimostrare conformità normativa, gestione del rischio o adeguatezza tecnologica in contesti critici.

Il problema nascosto: valutare la valutazione
Nel dibattito internazionale sta emergendo un ulteriore livello di complessità.
Non basta valutare un modello. Occorre anche valutare la qualità della valutazione stessa.
Molti benchmark oggi utilizzati per misurare le prestazioni dei modelli generativi possono produrre risultati significativamente diversi a seconda delle modalità con cui vengono eseguiti.
Piccole variazioni nei prompt, nelle configurazioni di sistema, nei parametri di inferenza o nei dataset utilizzati possono alterare sensibilmente gli esiti finali.
Questo fenomeno ha portato ricercatori e organizzazioni specializzate a concentrarsi non soltanto sui test ma anche sulle infrastrutture che li rendono possibili.
In questo contesto assume particolare importanza il concetto di evaluation harness.

Che cos’è l’harness e perché sta diventando centrale
Nel linguaggio dell’ingegneria del software, l’harness è l’insieme degli strumenti, delle configurazioni e delle procedure che consentono di eseguire un test in modo standardizzato.
Nel caso dell’intelligenza artificiale, l’harness comprende elementi come:
- prompt utilizzati per interrogare il modello;
- configurazioni di sistema;
- parametri di esecuzione;
- gestione dei dataset;
- metriche di valutazione;
- protocolli di raccolta dei risultati;
- procedure di replicazione degli esperimenti.
In pratica, rappresenta l’infrastruttura che collega il modello al benchmark.
Se due organizzazioni utilizzano lo stesso benchmark ma harness differenti, potrebbero ottenere risultati diversi pur testando lo stesso modello.
Da qui nasce una nuova esigenza: rendere verificabile non solo il modello ma anche l’intero processo di valutazione.
Secondo il framework recentemente proposto da diversi gruppi di ricerca internazionali, una valutazione dovrebbe essere accompagnata da informazioni dettagliate sul metodo utilizzato, sulle configurazioni adottate e sulle eventuali limitazioni riscontrate durante il test.
L’obiettivo è garantire riproducibilità e confrontabilità tra organizzazioni differenti.
Dalla cybersecurity all’AI: il modello della disclosure responsabile
Un altro filone di ricerca particolarmente interessante riguarda l’importazione nell’ecosistema AI di pratiche già consolidate nel settore della sicurezza informatica.
Nel mondo cyber, la scoperta di una vulnerabilità segue generalmente procedure standardizzate: segnalazione al produttore, verifica tecnica, tempi di correzione e successiva divulgazione pubblica.
Per l’intelligenza artificiale questi processi sono ancora in fase embrionale.
Uno studio pubblicato nel 2025 evidenzia come il settore non disponga ancora di meccanismi maturi per la segnalazione e la gestione delle vulnerabilità dei modelli di uso generale.
I ricercatori propongono l’introduzione di programmi analoghi ai bug bounty, con tutele legali per chi individua problemi e procedure condivise per la comunicazione delle criticità.
L’idea è semplice: se un ricercatore scopre un comportamento pericoloso, un jailbreak particolarmente efficace o una vulnerabilità sistemica, deve poterla segnalare senza rischiare conseguenze legali e seguendo un protocollo riconosciuto.
Per le aziende che sviluppano AI, questo approccio potrebbe trasformarsi in un vantaggio competitivo, consentendo di identificare e correggere problemi prima che diventino incidenti reputazionali o normativi.
Il ruolo dell’AI Act europeo
La crescente attenzione verso le valutazioni indipendenti si inserisce perfettamente nel quadro delineato dall’AI Act.
Pur non imponendo un modello unico di auditing, il regolamento europeo introduce requisiti di gestione del rischio, documentazione tecnica, monitoraggio e trasparenza che rendono sempre più rilevanti i processi di valutazione.
In particolare, per i sistemi classificati ad alto rischio e per i modelli di uso generale più avanzati, la capacità di dimostrare affidabilità e sicurezza attraverso evidenze verificabili potrebbe diventare un elemento cruciale.
In questo scenario, le third-party evaluations potrebbero svolgere una funzione analoga a quella delle certificazioni indipendenti in altri settori industriali.
Non si tratta semplicemente di rispettare una norma, ma di costruire fiducia lungo tutta la filiera dell’innovazione.
Oltre le performance: misurare gli impatti reali
Uno dei risultati più interessanti emersi dalla ricerca recente riguarda la differenza tra valutazione delle capacità e valutazione degli impatti.
La maggior parte dei benchmark oggi disponibili misura aspetti come:
- accuratezza;
- capacità di ragionamento;
- competenze matematiche;
- coding;
- comprensione linguistica.
Molto meno sviluppate risultano invece le metodologie dedicate a valutare effetti sociali, discriminazioni, impatti organizzativi, consumo energetico e conseguenze economiche.
Secondo una recente analisi del panorama internazionale delle valutazioni AI, esiste ancora una forte asimmetria tra la misurazione delle performance tecniche e quella degli impatti sistemici.
Questo squilibrio potrebbe diventare uno dei principali problemi della prossima fase di diffusione dell’intelligenza artificiale nelle organizzazioni.
Un modello può infatti ottenere risultati eccellenti nei benchmark tradizionali e al tempo stesso generare effetti indesiderati in contesti reali di utilizzo.

Le imprese chiedono assurance, non solo benchmark
Parallelamente si sta affermando il concetto di AI assurance, una disciplina che va oltre il semplice testing tecnico.
L’assurance mira a fornire una valutazione complessiva dell’affidabilità di un sistema, considerando governance, processi organizzativi, gestione dei dati, supervisione umana e controlli operativi.
Un recente framework sviluppato da ricercatori statunitensi propone un approccio strutturato che include matrici di responsabilità, interviste agli stakeholder, modelli di maturità organizzativa e report standardizzati.
La differenza rispetto ai benchmark tradizionali è sostanziale.
Mentre un benchmark risponde alla domanda “quanto è bravo questo modello?”, l’assurance cerca di rispondere a una domanda più complessa: “quanto possiamo fidarci del modo in cui questo sistema viene sviluppato, gestito e utilizzato?”.
Per i CIO, i responsabili della compliance e i decision maker aziendali, questa seconda domanda sta rapidamente diventando la più importante.
Verso un ecosistema di fiducia per l’AI
La maturità dell’intelligenza artificiale non dipenderà soltanto dalla crescita delle capacità dei modelli.
Dipenderà anche dalla capacità del settore di costruire meccanismi credibili di verifica, controllo e accountability.
In questo senso, il passaggio dalle valutazioni interne alle valutazioni indipendenti rappresenta probabilmente uno dei cambiamenti più significativi in atto nell’ecosistema AI.
Il tema non riguarda soltanto ricercatori e regolatori. Coinvolge direttamente imprese, pubbliche amministrazioni e organizzazioni che stanno integrando sistemi di IA nei propri processi operativi.
La vera sfida dei prossimi anni potrebbe quindi non essere costruire modelli sempre più intelligenti, ma costruire sistemi sempre più affidabili per misurarne capacità, limiti e rischi.
Perché nell’era dell’intelligenza artificiale generativa, la fiducia non nasce dalle promesse dei modelli. Nasce dalla qualità delle evidenze che siamo in grado di produrre per verificarli.






