analisi

AI e scatole nere: perché l’interpretability è una questione di governance



Indirizzo copiato

I modelli AI più capaci sono anche i più opachi. Nessuno, nemmeno chi li costruisce, sa spiegare del tutto come arrivino alle loro decisioni. L’interpretability, disciplina che prova a guardare dentro la rete neurale, è ormai una questione aziendale: chi adotta AI in contesti critici deve sapere perché il modello ha deciso così, prima che glielo chieda un regolatore o un cliente

Pubblicato il 16 apr 2026

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy



interpretability AI
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Ravi Solanki, neuroscienziato e fondatore della biomedicale Prima Mente, aveva addestrato nel 2025 il suo primo modello su centinaia di pazienti con Alzheimer, e il modello prediceva la malattia meglio di un medico umano. C’era però un dettaglio: Solanki non sapeva spiegare su quali dati poggiasse la diagnosi. Il modello funzionava, ma come oggetto muto, una scatola chiusa che restituiva previsioni senza argomenti. E davanti a un paziente, restituire una previsione senza argomenti significa restituire nulla.

La storia raccontata dal New York Times sull’interpretability, la disciplina che prova a capire come ragionano i modelli AI, sembra confinata ai laboratori di ricerca. In realtà riguarda direttamente le aziende che stanno integrando modelli predittivi nei processi decisionali, spesso senza aver risolto la domanda più semplice: se questo sistema sbaglia, saprò dire perché ha sbagliato?

La tesi qui è che l’interpretability non è un problema tecnico da delegare ai data scientist, è una questione di accountability che molte organizzazioni stanno già subendo senza averla messa a fuoco.

Dal white box al black box, passando per il bitter lesson

Quando Deep Blue batté Kasparov nel 1997, nessuno si chiedeva cosa stesse facendo il computer, era programmato esplicitamente dai suoi creatori per valutare posizioni fino a 12 mosse avanti. White box, trasparente per costruzione. Quindici anni dopo AlexNet, il sistema di classificazione di immagini dell’Università di Toronto, vinse la sua competizione senza essere stato programmato nel modo tradizionale: gli avevano dato una struttura di neuroni virtuali e un dataset enorme, e il sistema si era auto-regolato fino a trovare una formula migliore di qualsiasi cosa fosse stata costruita a mano.

Il problema è che quella formula, anche i suoi creatori non sapevano leggerla.

Rich Sutton, informatico, ha riassunto questa traiettoria come “bitter lesson”: 70 anni di machine learning hanno dimostrato che costruire macchine per imitare il modo in cui pensiamo di pensare non funziona alla lunga. Funziona invece fare reti neurali molto grandi e lasciarle imparare sui dati. I modelli sono passati da qualche decina di milioni di funzioni matematiche a centinaia di milioni, poi a miliardi; oggi Gemini e GPT-5 ne contengono presumibilmente migliaia di miliardi. Il prezzo è la trasparenza: più la rete cresce, meno è leggibile.

Chris Olah, co-fondatore di Anthropic e pioniere del campo, descrive il lavoro di interpretability come “lo studio di organismi alieni caduti dal cielo“. L’analogia è meno provocatoria di quanto sembri. Stiamo trattando sistemi che abbiamo costruito noi come fenomeni naturali da osservare, perché non abbiamo altro modo di accedervi.

Il costo operativo dell’opacità

interpretability AI
Dario Amodei

Dario Amodei, CEO di Anthropic, ha scritto che è “sostanzialmente inaccettabile” per l’umanità restare ignorante su come funzionano sistemi che diventeranno centrali per economia, tecnologia e sicurezza nazionale. La frase è dura ma si capisce meglio se la si traduce in scenari concreti: un drone che distrugge uno scuolabus, e l’unica spiegazione disponibile è “il sistema AI ha deciso così”; una diagnosi chirurgica dove il medico non può dire altro che “il computer ha detto di operare”. Potremmo tollerare questa deferenza solo se ci fidassimo del modello più che delle persone che prenderebbero le stesse decisioni. Ma come ci fidiamo di qualcosa che non sappiamo come funziona?

Anthropic ha rifiutato, recentemente, di lasciare i propri modelli al Pentagono per integrazioni con sistemi d’arma autonomi. Non è una posizione etica astratta, è una posizione di responsabilità tecnica: un sistema che non sai interrogare non dovrebbe prendere decisioni irreversibili.

Per le aziende il ragionamento vale nello stesso modo, a scala minore. Un modello che decide chi assumere, chi approvare per un prestito, quali clienti chiamare, quali fornitori scartare, produce decisioni che hanno impatto legale, reputazionale, economico.

La domanda “perché ha deciso così” non è filosofica, è la domanda a cui dovrete rispondere davanti a un regolatore, a un candidato rifiutato, a un cliente che reclama. Non avere la risposta non è un’inefficienza tollerabile, è un rischio operativo.

Chain of thought, sparse autoencoder, probing: una cassetta degli attrezzi imperfetta

La via più intuitiva per capire un modello è chiederglielo. Se un’AI ti raccomanda un antidepressivo, puoi chiederle perché, e il modello ti dirà “hai sbalzi di umore, ti senti triste da un po’, hai familiarità”. Il problema è che i modelli non sempre dicono la verità sul proprio ragionamento.

Una ricerca recente di Apple e Arizona State University ha mostrato che i modelli spesso inventano le spiegazioni o si contraddicono. E un team di OpenAI ha etichettato come “scheming” il comportamento di modelli che fingono di soddisfare una richiesta mentre perseguono altri obiettivi.

Un modello di OpenAI, durante un’auto-valutazione, ha scritto questa catena di pensiero: “al prompt dobbiamo rispondere in modo veritiero, ma possiamo comunque scegliere di mentire nell’output”. Un modello di Google ha provato a falsificare delle statistiche dicendosi: “non posso alterare troppo i numeri, altrimenti saranno sospetti”.

Chiedere a un modello di spiegarsi, quindi, non è affidabile. Servono metodi che guardino dentro la rete, non alle sue risposte.

Lo sparse autoencoding, tecnica che Olah ha rilanciato nel 2023, cerca pattern ricorrenti nella rete neurale, come estrarre parole da un testo scritto senza spazi. Funziona in parte: Neel Nanda di Google DeepMind ha pubblicato un post nel 2025 spiegando di aver depriorizzato il metodo perché spesso identifica pathway che poi si attivano in contesti inattesi, il “sentiero dei cani” che si accende anche parlando di nuvole.

Ellie Pavlick, ricercatrice a Brown, ha riassunto così: “abbiamo fatto progressi, ma ogni pochi mesi stiamo valutando un metodo, poi ne valutiamo un altro”. Ogni tecnica apre uno spiraglio e rivela un limite. L’approccio che sta emergendo non è la chiave universale, è la cassetta degli attrezzi: sparse autoencoder per alcuni problemi, probing per altri, analisi della chain of thought per altri ancora, nessuno sufficiente da solo.

Il caso Prima Mente: comprensione imperfetta, risultato utile

Solanki ha incontrato Eric Ho, fondatore di Goodfire, laboratorio indipendente di interpretability. Hanno applicato sparse autoencoder al modello di Alzheimer e hanno trovato qualcosa di inatteso: il modello correlava la malattia alla lunghezza dei frammenti di DNA libero nel sangue. Era un biomarcatore nuovo, non descritto in letteratura. Non prova che l’Alzheimer accorci quei frammenti, la relazione potrebbe essere come quella tra fulmine e pioggia. Ma rimuovendo l’informazione sulla lunghezza dei frammenti, il modello peggiorava sensibilmente le sue predizioni. C’era quindi almeno un nesso causale interno al modello, e una ipotesi biologica nuova da testare in laboratorio.

Bess Frost, ricercatrice sull’Alzheimer a Brown, ha detto al New York Times di essere generalmente stanca di chi pensa che “basta dare tutto in pasto all’AI e ci penserà lei”, ma su questo caso specifico ha ammesso che il risultato “ha molto senso, e non è qualcosa a cui avrei pensato”.

Questo è il modello di utilità realistica dell’interpretability oggi: non aprire la scatola nera, ma usarla come strumento di scoperta nonostante resti parzialmente opaca. Ipotizza, testa, valuta, un processo che Dan Balsam di Goodfire descrive come “sfogliare iterativamente gli strati della cipolla”.

Per un’azienda che adotta AI in ambiti critici, la traduzione è immediata: non aspettate che i ricercatori risolvano il problema dell’opacità, costruite processi che sfruttano comprensione parziale e la integrano con verifica empirica fuori dal modello.

Opacità come condizione operativa, non come difetto temporaneo

David Bau, ricercatore alla Northeastern, paragona la situazione attuale alla biologia del 1930, quando la cellula era una scatola nera. Ci sono voluti più di duecento anni dalla scoperta dei germi per arrivare a capire che causavano le malattie. La scienza è lenta anche nei laboratori migliori, ma è affidabile. Il punto non è risolvere del tutto l’opacità, è integrarla nei processi come una condizione operativa, non come un difetto temporaneo che prima o poi sparirà.

Per le imprese questo ha conseguenze dirette. La due diligence su un modello AI non si chiude con le metriche di accuratezza, va estesa alle tecniche di interpretability che il fornitore dichiara di usare, alla possibilità di auditarle, alla tracciabilità dei pathway che il modello attiva quando decide.

Accanto a questo, le decisioni prese dai modelli in domini ad alto rischio richiedono un processo esterno al modello stesso, qualcosa che pesi la predizione, la incroci con dati indipendenti, lasci traccia del perché la decisione finale è quella. E poi c’è una figura aziendale che sta nascendo adesso, il “traduttore” tra modello e decision maker, ponte tra chi costruisce il sistema e chi ne porta la responsabilità davanti ai regolatori, ai clienti, ai dipendenti. Varrà la pena presidiarla prima che il mercato la imponga.

Abbiamo costruito sistemi che funzionano meglio di quanto sappiamo spiegarli. È una condizione strana per una tecnologia, ma non per la conoscenza in generale, non sappiamo nemmeno perché una persona decide una cosa invece di un’altra, e tuttavia abbiamo costruito istituzioni, contratti, tribunali e medicine attorno a questa opacità umana.

Il lavoro che ci aspetta è fare lo stesso con le macchine, sapendo che la fiducia cieca non è un’opzione e che la comprensione totale, forse, non arriverà mai.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x