ANALISI

Explainable AI: quando l’intelligenza artificiale sa spiegare sé stessa



Indirizzo copiato

Le tecniche di XAI offrono strumenti utili per comprendere e giustificare le decisioni automatiche. Analizziamo i punti di forza e le criticità delle tecniche di spiegazione oggi disponibili per i modelli di linguaggio naturale

Andrea Baraldi

Center for Advanced AI – Accenture Italia

Luca Bartoletti

Center for Advanced AI – Accenture Italia

Salvatore D'Amicis

Center for Advanced AI – Accenture Italia

Pubblicato il 3 giu 2025



Explainable AI

Nel cuore delle decisioni aziendali c’è sempre più spesso l’intelligenza artificiale, ma ciò che la rende potente, la sua complessità, rischia anche di renderla incomprensibile. In un’epoca in cui la fiducia è essenziale e l’opacità dei modelli può diventare un ostacolo nasce l’esigenza dell’eXplainable AI (XAI), che offre chiavi di lettura concrete per comprendere e giustificare le scelte prese da questi modelli.

Anche nel contesto dell’ottimizzazione, le tecniche di eXplainable AI (XAI) offrono strumenti utili per comprendere e giustificare le decisioni automatiche. Analizziamo i punti di forza e le criticità delle tecniche di spiegazione oggi disponibili per i modelli di linguaggio naturale, in un panorama sempre più dominato dai Large Language Model (LLM).

La “black box” dell’AI

L’intelligenza artificiale, come sappiamo, sta trasformando il panorama aziendale, offrendo opportunità senza precedenti. Tuttavia, molti dei modelli di AI più avanzati, in particolare quelli basati su deep learning, funzionano come “scatole nere”, o “black box”: raggiungono risultati eccellenti, ma i loro processi decisionali interni rimangono oscuri. Questa opacità solleva interrogativi cruciali per i leader aziendali.

Vi fidereste di una decisione strategica fondamentale, come l’approvazione di un prestito o la diagnosi di una malattia, presa da un sistema per cui nessuno sa giustificare le sue decisioni? Contesti come quelli appena descritti rendono critico l’utilizzo dell’AI, senza l’affiancamento di strumenti in grado di spiegarne le decisioni. Nel credit scoring, un rifiuto non giustificato può ledere la reputazione di una banca oppure sollevare dubbi sulla trasparenza e l’equità del processo decisionale adottato. In ambito medico, una diagnosi errata senza spiegazioni mette a rischio vite umane. Nessuno si sente al sicuro quando, al posto di una risposta chiara, si riceve un vago “non si sa”.

Explainable AI: l’arte di rendere l’AI comprensibile a tutti

L’Explainable AI è la capacità di comprendere e chiarire come un sistema AI arriva a una determinata conclusione, non è un lusso, ma un elemento cruciale per un’adozione responsabile e consapevole dell’AI all’interno del business aziendale.

In questo contesto, è fondamentale riconoscere che la spiegazione di una decisione automatica non ha un valore assoluto, ma varia profondamente in base a chi ne è il destinatario. Si possono avere diversi utilizzatori come sviluppatori, esperti di dominio, regolatori e utenti finali. Ognuno di essi ha esigenze eterogenee, spesso divergenti, in termini di contenuto, forma e profondità della spiegazione.

L’utente finale, ad esempio, può avere bisogno di una spiegazione semplice e intuitiva per comprendere perché gli sia stato negato un credito o assegnata una diagnosi; lo sviluppatore, invece, necessita di dettagli tecnici per individuare errori o ottimizzare il modello; la legge richiede il diritto di spiegazione alle risposte automatiche.

Questo implica che le spiegazioni devono essere adattate e contestualizzate, progettate tenendo conto del ruolo, delle competenze e degli obiettivi di chi interagisce con il sistema. Uno strumento di explainability efficace, non si limita a “spiegare il modello”, ma costruisce un dialogo significativo con ciascun attore coinvolto, promuovendo fiducia e un uso responsabile dell’AI.

Explainable AI

Nell’immagine mostriamo una possibile spiegazione del processo di approvazione di un mutuo, un richiedente che vede la sua richiesta negata vorrebbe sapere come può agire per ottenere l’approvazione. La spiegazione è rivolta a un non esperto, per cui, viene fornito un esempio specifico che, a partire dalla sua condizione specifica, mostra quale cambiamento può portare all’accettazione. La spiegazione è semplice e limitata a soddisfare le esigenze del soggetto interessato, non viene spiegato tutto il processo decisionale.

Oltre il trade-off: explainability senza rinunciare alla performance

Come raccontato finora, l’explainability rappresenta una qualità sempre più cruciale e adattiva, ma non sempre facilmente conciliabile con altri obiettivi come l’accuratezza o la potenza predittiva. In generale, esiste un trade-off tra explainability e performance: i modelli altamente accurati come le reti neurali sono spesso black box, ovvero non facilmente interpretabili, mentre modelli più semplici e trasparenti, come alberi decisionali o regressioni lineari, offrono una maggiore explainability a scapito, talvolta, della precisione predittiva.

All’interno di questa cornice, emergono anche sinergie in cui il compromesso tra accuratezza e trasparenza può essere mitigato: ad esempio, in domini regolati e delicati come la sanità, la finanza e la giustizia si preferiscono modelli meno performanti ma più spiegabili o comunque modelli ibridi che cercano di bilanciare entrambi gli aspetti. Il risultato è un panorama in cui la scelta del modello non dipende solo da quanto “funziona”, ma anche da chi deve capirlo, perché, e con quali conseguenze.

Il campo di ricerca dell’explainable AI (o Interpretable ML) XAI / IML ha l’obiettivo di rompere il limite del trade-off tra accuratezza ed explainability. I ricercatori di questo campo lavorano allo sviluppo di strumenti capaci di generare spiegazioni del ragionamento di ogni modello, incluso quelli complessi. Adottando queste tecniche è quindi possibile sfruttare le alte performance dei modelli complessi e integrarli con strumenti di explainability per sopperire alle esigenze di spiegazioni.

Progettare e sviluppare modelli capaci di restituire risultati intermedi

Un’altra strategia all’interno di questo filone di ricerca è quella di progettare e sviluppare modelli capaci di restituire, oltre alla predizione, dei risultati intermedi dell’attivazione del modello. Questi sono rielaborazioni dell’input che forniscono una giustificazione del processo decisionale agli utilizzatori. Questo tipo di modelli ha l’obiettivo di sfruttare le architetture neurali più complesse vincolando gli output ad essere comprensibili.

Tali approcci permettono di mantenere le elevate prestazioni dei sistemi avanzati, garantendo al contempo una maggiore trasparenza nel processo inferenziale. In questo modo, gli esperti del dominio possono valutare non solo l’accuratezza dei risultati, ma anche la validità del ragionamento che ha portato alle conclusioni generate dal modello.

Dentro l’Explainable AI: tecniche di explainability

1. Explainable Constraint Programming

In un contesto aziendale via via più complesso e vincolato da risorse limitate, la Constraint Programming (in seguito CP) rappresenta un potente approccio per automatizzare e ottimizzare decisioni strategiche. Sono tecniche che consentono di trovare soluzioni ottimali a problemi caratterizzati da una molteplicità di vincoli: budget, scadenze, regole operative o risorse limitate.

La CP non si limita a cercare una soluzione accettabile, ma mira a individuare la soluzione migliore nel rispetto di tutti i vincoli imposti, e trova applicazione dalla logistica, alla pianificazione produttiva, alla supply chain. Ma, come anticipato, a volte l’importanza di capire perché una decisione è stata presa supera persino il valore della decisione stessa. Da qui nasce l’esigenza di un approccio chiamato Explainable Constraint Programming: non solo orientato a trovare soluzioni ottimali, ma anche a renderle comprensibili, verificabili e trasparenti per chi dovrà utilizzarle.

Quando un utente si confronta con i risultati di un modello CP, può arrivare a chiedersi il motivo alla base delle scelte compiute: “Perché è stata scelta questa configurazione?” oppure “Perché il modello non ha considerato quest’altra opzione?”. Questo tipo di interrogativi si articola in due direzioni distinte, dando origine a due approcci complementari per integrare l’explainability nei modelli CP.

Deductive explanations: perché è stata scelta questa configurazione?

Queste tecniche di spiegazione si basano su ragionamenti logici e strutturati, che aiutano a capire in modo chiaro perché è stata scelta una certa soluzione. Non si limita a dire cosa è stato deciso, ma mostra passo dopo passo come quella scelta rispetta le regole del problema e porta al miglior risultato possibile. In pratica, osserva il comportamento del modello mentre cerca la soluzione migliore, mettendo in evidenza quali cambiamenti nelle variabili hanno portato a migliorare il risultato finale, e perché certe alternative sono state scartate.

Counterfactual explanations: perché il modello non ha considerato quest’altra opzione?

Queste tecniche si basano sul confronto tra due soluzioni per capire cosa ha spinto il modello a non scegliere un’alternativa specifica. Si parte dalla soluzione proposta inizialmente dal sistema, poi si forza il modello a prendere in considerazione proprio l’alternativa che era stata scartata, aggiungendo un vincolo che la renda obbligatoria. In questo modo si ottiene una seconda soluzione, da confrontare con la prima. Analizzando le differenze tra le due configurazioni, è possibile capire quali elementi sono cambiati e come questi cambiamenti hanno influenzato il risultato. Questo approccio permette quindi non solo di comprendere la scelta effettuata, ma anche di esplorare concretamente le opzioni che sono state escluse.

2. Large Language Model (LLM)

Gli LLM sono enormi modelli statistici allenati a predire le prossime parole più probabili dato un testo iniziale di riferimento, sono creati usando immense quantità di testo trovate sul web e tramite varie e sofisticate strategie di addestramento, tra cui l’utilizzo del feedback umano al fine di far apprendere ai modelli come generare un output più allineato ai desideri e alle esigenze degli utenti (Reinforcement Learning from Human Feedback).

L’explainability su LLM si lega strettamente alle applicazioni di questi modelli. Oggi, sulla cresta dell’onda troviamo l’utilizzo degli LLM come chatbot, ne esistono tanti, sempre più facili da usare e sempre più diffusi, pensiamo ad esempio a Gemini di Google, Meta AI di Meta e a Copilot di Microsoft. Sono servizi intuitivi, si conversa con l’intelligenza artificiale tramite testo, voce, immagini o addirittura in videochiamata. Questi modelli si possono sfruttare anche per task più ‘tradizionali’ legati al linguaggio: l’analisi del sentimento, l’estrazione di entità, la traduzione, la capacità di riassumere, ma anche task più complessi come il fact-checking.

Dato questo contesto è facile intuire che generare spiegazioni per gli LLM assume sfumature diverse in base all’applicazione del caso. È comunque possibile identificare alcune strategie e forme di spiegazione ricorrenti e condivise su più casi d’uso.

Spiegazioni con tecniche di Feature Attribution

Tra i possibili formati di spiegazione troviamo quello del Feature Attribution, per cui ad ogni parola in input (feature) viene attribuito un effetto sulla predizione del modello.

Esistono metodi basati su perturbazioni dell’input: queste tecniche generano alterazioni di un testo di riferimento andando a eliminare o sostituire alcune parole, vengono quindi analizzate le variazioni delle predizioni fatte dal modello rispetto a ciascuna alterazione. Questi metodi appartengono alla famiglia delle tecniche post-hoc e model-agnostic, perché non analizzano le strutture interne del modello da spiegare, ma agiscono analizzando il suo output, per questo motivo possono essere applicati a qualsiasi modello.

Tuttavia, richiedono tempo, risorse e, generalmente, l’utilizzo di uno stesso modello spiegato su tutti i testi sintetici ottenuti dall’alterazione. Inoltre, possono rivelarsi poco accurate: rimangono delle approssimazioni (non è fattibile provare tutte le alterazioni possibili per vincoli temporali), e si basano sull’assunzione che le feature (parole) hanno una contribuzione indipendente tra loro (ma il significato di una frase si forma proprio grazie alla combinazione delle parole presenti).

Riportiamo una spiegazione generata con SHAP, in cui si mostra come le parole di una frase influiscano sulla predizione del sentimento ‘tristezza’ per un modello di esempio.

Explainable AI

Figura generata con SHAP (https://github.com/shap/shap), MIT License.

A questo link, l’esempio dalla pagina ufficiale

Analisi delle strutture interne dei modelli

Un’altra famiglia di tecniche capaci di generare questo tipo di spiegazione è quella che consiste nell’analisi delle strutture interne dei modelli. Gli LLM utilizzano architetture neurali, e in particolare, moduli di attenzione, questi componenti vengono ripetuti e alternati in vari modi aumentando la dimensione e la complessità dell’architettura di un LLM. Nonostante non sia possibile stabilire con esattezza come una parola abbia effetto sull’output di un modello, è comunque possibile fare una stima approssimativa della gravità dell’effetto di una parola con tecniche matematiche che analizzano l’attivazione dei parametri delle architetture neurali (Gradient-Based e Attention Analysis). Qui un esempio di visualizzazione del modulo di attention.

Explainable AI
Visualizzazione generata con BertViz (https://github.com/jessevig/bertviz), sotto licenza Apache License 2.0. (https://www.apache.org/licenses/LICENSE-2.0)

Data la complessità dei modelli LLM anche le spiegazioni ottenute con questi metodi sono necessariamente una semplificazione del processo di inferenza del modello. Per questo motivo le spiegazioni sono solo un’approssimazione del modello analizzato. Dal punto di vista dell’utilità, questo tipo di spiegazioni potrebbero risultare macchinose da usare. Ragionando su quale potrebbe essere la spiegazione ideale, si può dire che dovrebbe essere comprensibile, deve dare una giustificazione chiara e focalizzata su pochi elementi. Questo tipo di spiegazioni potrebbero quindi risultare troppo dispersive in base allo scopo e agli utenti a cui rispondono.

Prompt-Based Techniques

Un’altra possibilità per spiegare gli LLM è quella di chiedere esplicitamente con un prompt di fornire una spiegazione sul ragionamento seguito per arrivare ad una certa risposta, verrà quindi restituita una descrizione testuale di questo. È cruciale evidenziare che ciò che viene restituito dal modello è in ogni caso la sequenza di parole più probabile secondo la sua conoscenza; quindi, non va considerata come una spiegazione esatta del processo di ragionamento, ma soltanto un tentativo di soddisfare la richiesta di spiegazione.

Non c’è alcuna ragione per cui la spiegazione generata debba riflettere accuratamente il reale processo di inferenza. Gli LLM possono produrre risposte plausibili, ma comunque incorrette e illogiche. Ad oggi, non è possibile verificare se gli LLM abbiano una reale capacità di comprensione o se non sfruttino soltanto pattern statistici appresi durante l’addestramento. Di fatto non esiste una definizione scientifica e condivisa di cosa costituisca la “vera comprensione”.

La ricerca di Anthropic

Un gruppo di ricercatori di Anthropic, il provider del modello Claude, ha condotto uno studio per verificare se le spiegazioni date da un LLM sono congruenti alle risposte generate, è stato chiesto ad un LLM conversazionale di descrivere il processo logico per rispondere ad una domanda e successivamente dare una risposta a questa, hanno però inserito dei suggerimenti sulla risposta corretta per verificare se il modello li avrebbe menzionati nel suo processo di ragionamento.

I risultati sono stati preoccupanti: nella maggior parte dei casi, i modelli hanno utilizzato i suggerimenti senza però menzionarli nella loro catena di pensiero (Chain-of-Thought). Claude 3.7 Sonnet ha menzionato i suggerimenti solo nel 25% dei casi, mentre DeepSeek R1 lo ha fatto nel 39% dei casi. Questo dimostra che la “fedeltà” delle spiegazioni fornite è significativamente limitata.

In termini di formato, questo tipo di spiegazioni è più semplice e comprensibile, oltre che adattabile con semplici richiesti testuali. Se le spiegazioni generate avessero un alto livello di congruenza con il ragionamento effettivo del modello allora questo metodo di spiegazione potrebbe essere ritenuto superiore agli altri.

Counterfactual & Contrastive Explanations

Anche per applicazioni testuali possono essere usate spiegazioni controfattuali, queste rispondono alla domanda: “Cosa sarebbe successo se?“, fornendo esempi alternativi che avrebbero portato il modello a una predizione diversa.

Ad esempio, in un task di classificazione del sentimento, una spiegazione controfattuale potrebbe mostrare come modificare una frase per cambiare la predizione da “tristezza” a “gioia”. Queste spiegazioni sono particolarmente utili per comprendere la sensibilità del modello a specifiche variazioni dell’input.

Per generare queste spiegazioni ci sono varie tecniche, alcune basate sull’uso degli LLM: sostanzialmente si tratta di andare a identificare parole chiave e sostituirle con criterio; quindi, per ogni esempio si testa se la modifica ha raggiunto l’obbiettivo desiderato, solitamente una condizione di cambiamento dell’output del modello. Il processo si ripete fino a che non vengono generati una quantità di esempi soddisfacente o si raggiunge un tempo limite per la generazione.

Le spiegazioni generate sono formate da coppie di esempi, il primo è l’esempio di riferimento e l’altro è un’alterazione del primo per cui la predizione del modello cambia in un certo modo. Sono spiegazioni locali che forniscono informazioni circoscritte ma accurate, mostrano l’effetto di variazioni piccole e definite sull’output di un modello. Se questo tipo di spiegazioni soddisfacesse le esigenze del caso allora sarebbe la scelta migliore.

L’unico svantaggio sta nel fatto che le spiegazioni generate forniscono una quantità di informazioni limitata, a volte insufficiente. La generazione di tali spiegazioni può essere onerosa a livello computazionale, ma è tendenzialmente più leggera dei metodi post-hoc che generano spiegazioni ‘Feature Attribution’.

Altre tecniche di Explainability

Esistono altre alle tecniche oltre a quelle già presentate, alcune particolarmente sofisticate e complesse. Di seguito qualche riferimento per gli interessati: il probing è una tecnica utilizzata per analizzare le rappresentazioni interne dei LLM, consiste nell’addestrare modelli ausiliari (probe) su rappresentazioni generate dal modello per prevedere proprietà linguistiche specifiche, come la parte del discorso o la struttura sintattica.

Ad esempio, si può addestrare un probe per prevedere la parte del discorso di ogni parola in una frase, utilizzando le rappresentazioni interne del modello. Se il probe riesce a fare previsioni accurate, si può inferire che il modello ha codificato tali informazioni nelle sue rappresentazioni interne. Questo approccio aiuta a comprendere quali conoscenze linguistiche il modello ha appreso durante l’addestramento.

Gemma Scope è un metodo sviluppato da Google per analizzare come i concetti appresi vengono attivati all’interno di uno dei suoi modelli (Gemma).

Conclusioni

In un mondo in cui i modelli predittivi incidono anche su decisioni critiche, l’esigenza di spiegare come e perché una decisione è stata presa diventa centrale per costruire fiducia, garantire conformità normativa e facilitare l’adozione dell’AI in azienda, e non solo. In altre parole, avere una soluzione di AI ottimale non basta, bisogna anche capirla. Per questo è fondamentale l’Explainable AI, come condizione essenziale per un’AI responsabile, trasparente e realmente utile nei contesti aziendali.

Grazie ad approcci come l’Explainable Constraint Programming e a tecniche di deductive e counterfactual explainability, è possibile coniugare potenza predittiva e trasparenza, colmando il divario tra la performance tecnologica e la comprensione umana.

Questo discorso vale tanto per l’AI in generale, quanto per gli LLM. Se una spiegazione si rivela necessaria, meglio non affidarsi a tecniche approssimative. L’unica affidabile al 100% è la tecnica Counterfactual, basata sugli esempi, ma presenta ancora dei limiti. Nonostante gli LLM siano sempre più grandi, veloci e capaci, non sappiamo ancora se siano davvero in grado di ragionare o se rimangano dei sofisticati modelli statistici.

Le tecniche di spiegazione disponibili oggi non sono sufficienti per verificare questa condizione. E finché queste proprietà non saranno dimostrate, la supervisione e la verifica da parte dell’essere umano continuano a giocare un ruolo chiave, sono imprescindibili.

Riferimenti

https://deepmind.google/discover/blog/gemma-scope-helping-the-safety-community-shed-light-on-the-inner-workings-of-language-models/

SHAP – Lundberg, S. M., & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions.

In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 30 (pp. 4765–4774). Retrieved from http://papers.nips.cc/paper/7062-a-unified-approach-to-interpreting-model-predictions.pdf

LIME – Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). ‘Why Should I Trust You?’: Explaining the Predictions of Any Classifier. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 13-17, 2016, 1135–1144.

Ribeiro, M. T., Singh, S., & Guestrin, C. (2018). Anchors: High-Precision Model-Agnostic Explanations. AAAI Conference on Artificial Intelligence (AAAI).

Molnar, C. (2025). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable (3rd ed.). Retrieved from https://christophm.github.io/interpretable-ml-book

https://www.anthropic.com/research/reasoning-models-dont-say-think

https://arxiv.org/html/2402.04614v2

Articoli correlati

Articolo 1 di 4