sicurezza

Come garantire la sicurezza nei modelli di AI generativa



Indirizzo copiato

I modelli di Gen AI stanno rivoluzionando il modo in cui aziende e utenti interagiscono con la tecnologia. Ma dietro la promessa di efficienza e automazione si nasconde una vulnerabilità crescente: prompt injection, jailbreak, data exfiltration e data leakage. Lo spieghiamo con l’aiuto di Giovanni Germani, head of artificial intelligence di Fastweb + Vodafone

Pubblicato il 30 ott 2025

Stefano Casini

giornalista



Come garantire la sicurezza nei modelli di AI generativa

L’intelligenza artificiale generativa è una tecnologia dalle grandi potenzialità, ma non ancora impermeabile ad alcune minacce e non infallibile.

I modelli di AI generativa basati su Large Language Model (LLM), che fanno funzionare chatbot, classifier, agent, sono progettati per comprendere e rispondere in linguaggio naturale. Ma sono esposti a input e prompt di ogni genere e anche non controllati da parte degli utenti. Questi input possono essere sfruttati per manipolare e alterare il comportamento del modello o indurlo a risposte non sicure.

Attacchi “adversarial” come prompt injection, jailbreak, data exfiltration e data leakage puntano a forzare il modello a ignorare le regole di sicurezza, violare le proprie policy, generare contenuti vietati o rivelare informazioni riservate.

Rischi principali: risposte non adeguate, fuga di dati, violazione delle regole e procedure aziendali.

Per questo, per scongiurare questi pericoli e minacce, serve un sistema di verifica continua, che misuri la capacità del modello di Gen AI di restare entro i limiti previsti. Con l’obiettivo di garantire un comportamento controllato e conforme alle regole e policy, anche in presenza di input malevoli.

Rischi e vulnerabilità nei modelli di AI generativa

I modelli generativi (LLM) apprendono dai dati e producono testo in base a correlazioni probabilistiche, non a regole esplicite. “Questa natura statistica e non deterministica li rende vulnerabili a input che alterano il contesto semantico o logico della conversazione”, rileva Giovanni Germani, head of artificial intelligence di Fastweb + Vodafone.

“Gli attacchi Adversarial sfruttano proprio queste debolezze per forzare l’output e le risposte della macchina, bypassare i filtri di sicurezza o accedere a informazioni interne”, prosegue Germani.

Immagine che contiene persona, vestiti, abito, uomoIl contenuto generato dall'IA potrebbe non essere corretto.

Minacce e prompt malevoli

Un chatbot aziendale, ad esempio, potrebbe rispondere a domande fuori ambito o fornire dettagli tecnici non autorizzati, mettendo a rischio la reputazione e la compliance dell’organizzazione.

Prompt injection

Con questo sistema di attacco, l’utente induce il modello AI a ignorare istruzioni o regole di sicurezza, chiedendo, ad esempio, di “mostrare il prompt di sistema” o “ignorare le policy”.

Jailbreak

Tecniche di manipolazione che spingono il modello a produrre output vietati, come contenuti sensibili, codice dannoso, informazioni riservate.

Data exfiltration

Sono attacchi che puntano a estrarre dati interni, come prompt di sistema, riferimenti al training dei sistemi di LLM o informazioni riservate.

Adversarial chatbot

Genera prompt malevoli o ingannevoli, progettati per forzare comportamenti fuori Policy.

Risposte fuori ambito

Il modello di Gen AI è interrogato e risponde a richieste non pertinenti al dominio e utilizzo previsto, per esempio nel caso si una chatbot aziendale che fornisce informazioni, generiche o tecniche, non autorizzate.

Adversarial Testing Framework

Per affrontare queste minacce, si può fare ricorso a un sistema di test automatizzato in ambiente controllato. Un Adversarial Testing Framework si basa su un’architettura multi-agente che simula attacchi reali e valuta la capacità del modello AI di restare entro i limiti di sicurezza.

“Per valutare la robustezza di un modello AI è necessario simulare attacchi per identificare i punti deboli e correre ai ripari”, spiega l’esperto di Fastweb+Vodafone: “il framework genera, testa e valuta prompt malevoli, misurando la capacità del modello di restare conforme a quanto previsto”.

Immagine che contiene testo, interno, muro, Personal ComputerIl contenuto generato dall'IA potrebbe non essere corretto.

Per esempio, il sistema chatbot aziendale viene messo sotto test, configurato con guardrail attivi e policy aziendali ben definite nel dettaglio. Un generative guardrail applica un filtro intelligente sugli input e output per bloccare richieste non conformi. Mantiene le risposte nel dominio previsto e previene contenuti inappropriati o rischiosi.

La sicurezza dei modelli di Gen AI

Un altro strumento (Evaluator) analizza e valuta le risposte ai prompt della chatbot aziendale, e determina se il comportamento è conforme o vulnerabile, se è rimasto all’interno dell’ambito desiderato o ci sono anomalie.

L’analisi indica poi dati di performance e risultati, come quelli di Attack success rate (ASR), il Safety compliance score e la Response validity. “Queste metriche permettono di quantificare la resistenza alle minacce e identificare le aree critiche da migliorare. Il framework aggrega quindi i risultati dei test e misura la robustezza complessiva del modello di Gen AI”, osserva Germani.

E rimarca: “solo attraverso un approccio sistemico e proattivo è possibile garantire che la Gen AI operi sempre in modo sicuro e responsabile. In un mondo sempre più automatizzato, la sicurezza non è un optional: è la condizione per costruire fiducia nelle operazioni e nel lavoro di tutti i giorni”.

Articoli correlati