L’intelligenza artificiale generativa è una tecnologia dalle grandi potenzialità, ma non ancora impermeabile ad alcune minacce e non infallibile.
I modelli di AI generativa basati su Large Language Model (LLM), che fanno funzionare chatbot, classifier, agent, sono progettati per comprendere e rispondere in linguaggio naturale. Ma sono esposti a input e prompt di ogni genere e anche non controllati da parte degli utenti. Questi input possono essere sfruttati per manipolare e alterare il comportamento del modello o indurlo a risposte non sicure.
Attacchi “adversarial” come prompt injection, jailbreak, data exfiltration e data leakage puntano a forzare il modello a ignorare le regole di sicurezza, violare le proprie policy, generare contenuti vietati o rivelare informazioni riservate.
Rischi principali: risposte non adeguate, fuga di dati, violazione delle regole e procedure aziendali.
Per questo, per scongiurare questi pericoli e minacce, serve un sistema di verifica continua, che misuri la capacità del modello di Gen AI di restare entro i limiti previsti. Con l’obiettivo di garantire un comportamento controllato e conforme alle regole e policy, anche in presenza di input malevoli.
Indice degli argomenti:
Rischi e vulnerabilità nei modelli di AI generativa
I modelli generativi (LLM) apprendono dai dati e producono testo in base a correlazioni probabilistiche, non a regole esplicite. “Questa natura statistica e non deterministica li rende vulnerabili a input che alterano il contesto semantico o logico della conversazione”, rileva Giovanni Germani, head of artificial intelligence di Fastweb + Vodafone.
“Gli attacchi Adversarial sfruttano proprio queste debolezze per forzare l’output e le risposte della macchina, bypassare i filtri di sicurezza o accedere a informazioni interne”, prosegue Germani.

Minacce e prompt malevoli
Un chatbot aziendale, ad esempio, potrebbe rispondere a domande fuori ambito o fornire dettagli tecnici non autorizzati, mettendo a rischio la reputazione e la compliance dell’organizzazione.
Prompt injection
Con questo sistema di attacco, l’utente induce il modello AI a ignorare istruzioni o regole di sicurezza, chiedendo, ad esempio, di “mostrare il prompt di sistema” o “ignorare le policy”.
Jailbreak
Tecniche di manipolazione che spingono il modello a produrre output vietati, come contenuti sensibili, codice dannoso, informazioni riservate.
Data exfiltration
Sono attacchi che puntano a estrarre dati interni, come prompt di sistema, riferimenti al training dei sistemi di LLM o informazioni riservate.
Adversarial chatbot
Genera prompt malevoli o ingannevoli, progettati per forzare comportamenti fuori Policy.
Risposte fuori ambito
Il modello di Gen AI è interrogato e risponde a richieste non pertinenti al dominio e utilizzo previsto, per esempio nel caso si una chatbot aziendale che fornisce informazioni, generiche o tecniche, non autorizzate.
Adversarial Testing Framework
Per affrontare queste minacce, si può fare ricorso a un sistema di test automatizzato in ambiente controllato. Un Adversarial Testing Framework si basa su un’architettura multi-agente che simula attacchi reali e valuta la capacità del modello AI di restare entro i limiti di sicurezza.
“Per valutare la robustezza di un modello AI è necessario simulare attacchi per identificare i punti deboli e correre ai ripari”, spiega l’esperto di Fastweb+Vodafone: “il framework genera, testa e valuta prompt malevoli, misurando la capacità del modello di restare conforme a quanto previsto”.

Per esempio, il sistema chatbot aziendale viene messo sotto test, configurato con guardrail attivi e policy aziendali ben definite nel dettaglio. Un generative guardrail applica un filtro intelligente sugli input e output per bloccare richieste non conformi. Mantiene le risposte nel dominio previsto e previene contenuti inappropriati o rischiosi.
La sicurezza dei modelli di Gen AI
Un altro strumento (Evaluator) analizza e valuta le risposte ai prompt della chatbot aziendale, e determina se il comportamento è conforme o vulnerabile, se è rimasto all’interno dell’ambito desiderato o ci sono anomalie.
L’analisi indica poi dati di performance e risultati, come quelli di Attack success rate (ASR), il Safety compliance score e la Response validity. “Queste metriche permettono di quantificare la resistenza alle minacce e identificare le aree critiche da migliorare. Il framework aggrega quindi i risultati dei test e misura la robustezza complessiva del modello di Gen AI”, osserva Germani.
E rimarca: “solo attraverso un approccio sistemico e proattivo è possibile garantire che la Gen AI operi sempre in modo sicuro e responsabile. In un mondo sempre più automatizzato, la sicurezza non è un optional: è la condizione per costruire fiducia nelle operazioni e nel lavoro di tutti i giorni”.






