Vallo a spiegare ai messicani che gli LLM sono sicuri; che le loro capacità sorprendenti non possono essere usati fare danni in giro per il mondo. A fine febbraio, riporta Gambit Security, un attore malevolo ha usato Claude per cercare vulnerabilità nelle reti di enti pubblici messicane, scrivere script, automatizzare parti dell’intrusione e sottrarre 150 gigabyte di dati, tra cui record fiscali, elettorali, credenziali di dipendenti pubblici e file di anagrafe.
Anthropic ha detto di avere indagato, di avere bloccato l’attività e di avere bannato gli account coinvolti. OpenAI ha dichiarato di avere vietato gli account usati dall’attore dopo avere rilevato tentativi di impiego contrari alle policy.
Secondo Gambit, è un classico caso di jailbreak dell’LLM. Superamento di quei paletti che gli sviluppatori hanno posto proprio per evitare usi malevoli. Così hanno trasformato un assistente per il coding in un supporto operativo lungo la catena dell’attacco: scoperta di vulnerabilità, scrittura di exploit, scelta dei sistemi da colpire, suggerimenti sulle credenziali necessarie, automazione dell’esfiltrazione.
SecurityWeek, riprendendo la stessa ricerca, parla di oltre 1.000 prompt inviati a Claude Code e del passaggio di parte delle informazioni a GPT-4.1 per analisi aggiuntive. Il rischio cresce quando il modello usa strumenti ed è collegato a sistemi esterni, come ormai già riconosciuto.
Indice degli argomenti:
Red Teaming sicurezza LLM e cyber-spionaggio: i precedenti documentati
C’è pure un precedente. Il 13 novembre 2025 Anthropic ha scritto di avere rilevato e interrotto una campagna di cyber-espionaggio che attribuisce con “high confidence” a un gruppo sponsorizzato dallo stato cinese. Secondo l’azienda, gli attaccanti hanno manipolato Claude Code per tentare intrusioni contro circa 30 bersagli globali, con un impiego esteso delle capacità agentiche del modello lungo ricognizione, ricerca di vulnerabilità, sfruttamento, movimento laterale, raccolta credenziali, analisi dei dati ed esfiltrazione.
Anthropic ha definito l’episodio il primo caso documentato di attacco cyber su larga scala eseguito senza un intervento umano sostanziale (anche se non è del tutto automatico).
Il problema di queste potenti armi che finiscono nelle mani sbagliate è ovviamente all’attenzione dei loro produttori; ma anche di organismi internazionali.
Red Teaming e sicurezza LLM: prompt injection e jailbreak negli attacchi ai modelli AI
Il Nist, National Institute of Standards and Technology, un’agenzia del Dipartimento del Commercio degli Stati Uniti, nel 2025 ha pubblicato un rapporto sulla tassonomia degli attacchi e delle mitigazioni nell’adversarial machine learning, pensato proprio per dare un lessico comune a un campo che cambia in fretta.
Scrive che ci sono due tecniche da distinguere, prompt injection e jailbreak.
Il prompt injection è la manipolazione del comportamento del modello attraverso input costruiti ad arte; il jailbreak è una forma di prompt injection che porta il modello a ignorare del tutto i protocolli di sicurezza.
Il Nist allarga ancora il quadro e spiega che l’attacco può essere anche indiretto: nascosto in una pagina web, in un file, in una email o in una fonte recuperata via rag. In quel caso il modello non riceve l’istruzione dall’utente, ma la assorbe da un contenuto esterno e la tratta come parte del compito.
Il ruolo del red teaming nella sicurezza degli LLM
Come evitarlo? Qui entra in gioco il red teaming. Il Nist lo definisce come uno sforzo di test strutturato per trovare difetti e vulnerabilità in un sistema AI, spesso in ambiente controllato e in collaborazione con gli sviluppatori.
In pratica significa mettere il modello e l’applicazione sotto pressione con scenari avversariali realistici: prompt maligni, documenti contaminati, strumenti collegati, escalation di privilegi, output usati in catene automatiche. Non serve a certificare che un sistema sia invulnerabile. Serve a misurare dove si rompe, con quale sforzo e con quali conseguenze.
Red Teaming e sicurezza LLM: crescita delle capacità cyber dei modelli
Torna utile anche un recente report dell’Aisi, l’AI Security Institute britannico. L’istituto, che è una struttura di ricerca dentro il Department for Science, Innovation and Technology del Regno Unito, scrive di avere valutato oltre 30 modelli frontier dal novembre 2023.
Nel suo primo Frontier AI Trends Report, pubblicato il 18 dicembre 2025, segnala progressi molto rapidi nelle capacità cyber: a fine 2023 i modelli completavano compiti “apprentice-level” nel 9% dei casi; a fine 2025 il dato era salito al 50%, e nello stesso anno è arrivato il primo modello capace di completare task pensati per esperti con oltre dieci anni di esperienza. In più, l’istituto ha trovato universal jailbreak in ogni sistema testato.
Red Teaming e sicurezza LLM: la difesa a strati e le strategie di mitigazione
Ci sono anche buone notizie. Possibili soluzioni, per quanto parziali (come sempre nella cybersecurity, regna il concetto di minimizzazione di rischio e di danno)
Defense in depth
OpenAI scrive che non si può contare su una singola categoria di salvaguardie e che serve una strategia di defense in depth, con livelli diversi di controllo sull’accesso, sull’uso, sul monitoraggio e sulla risposta agli abusi. Nella versione aggiornata del Preparedness Framework, pubblicata il 15 aprile 2025, OpenAI aggiunge che i sistemi che raggiungono capacità “High” devono avere salvaguardie sufficienti a minimizzare il rischio grave prima del deployment; per capacità “Critical”, le contromisure devono essere già presenti durante lo sviluppo.
Ci sono insomma paletti di base che, sempre affinati e in evoluzione, cercano di impedirci di usare l’LLM per scrivere codice malevolo o per costruire un’arma batteriologica (un altro scenario che preoccupa gli esperti). Certo possiamo porre la domanda in modi o lingue diverse e riuscirci. Ma OpenAI ha un secondo livello di protezione: se notano diversi tentativi o comportamenti che destano sospetti, bloccheranno l’account. Ci riproviamo comunque, con altri account? Potrebbero chiamare la polizia.
Classificatori e nuove difese contro i jailbreak degli LLM
Anthropic, dal canto suo, ha mostrato a febbraio 2025 che i suoi Constitutional Classifiers riducevano il tasso di successo dei jailbreak dall’86% al 4,4% nei test automatici avanzati. A gennaio 2026 ha presentato una nuova generazione di questi classificatori, con un costo computazionale molto più basso e con un aumento dei rifiuti su query innocue dello 0,38%.
Nello stesso documento, però, Anthropic scrive che nessun sistema sul mercato ha difese perfettamente robuste e descrive due famiglie di vulnerabilità ancora aperte: attacchi di ricostruzione, che spezzano una richiesta pericolosa in parti apparentemente innocue, e attacchi di output obfuscation, che nascondono l’informazione dannosa in metafore, sostituzioni o codifiche.
La conferma arriva dall’Aisi. Il 17 febbraio 2026 l’istituto ha pubblicato Boundary Point Jailbreaking, una tecnica automatizzata che, secondo quanto scrive, è riuscita a trovare universal jailbreak contro i Constitutional Classifiers di Anthropic e contro l’input classifier di GPT-5. Le difese migliorano, ma anche gli attaccanti cambiano metodo. Per questo motivo anche Aisi raccomanda batch-level monitoring e un approccio a strati, non un singolo punto di controllo ottimizzabile dall’attaccante.
Gestione dell’output e dei permessi nei sistemi LLM
La fondazione Owasp aggiunge che non basta difendere il prompt: bisogna gestire anche l’insecure output handling, perché un output LLM non validato può arrivare a esecuzione di codice o ad altri exploit nei sistemi a valle. E bisogna limitare l’excessive agency, che Owasp definisce come la vulnerabilità che consente azioni dannose in risposta a output inattesi, ambigui o manipolati. Le cause tipiche sono tre: funzionalità eccessiva, permessi eccessivi, autonomia eccessiva.
Il Nist raccomanda che i progettisti dovrebbero assumere che il prompt injection sia possibile quando un modello è esposto a input non fidati. Tra le misure suggerite compaiono il filtraggio delle istruzioni provenienti da fonti terze, prompt che separano dati fidati e non fidati, uso di più LLM con permessi diversi e interazione con fonti potenzialmente ostili solo tramite interfacce ben definite.
È una traduzione del vecchio principio del privilegio minimo: un agente che deve leggere non deve poter cancellare. Uno che propone una query non deve eseguirla da solo, un connettore in lettura non deve ereditare permessi di scrittura. Eccetera.
Il quadro è in evoluzione; non è ancora chiaro se a breve l’AI aiuterà più gli attaccanti o i difensori nel dominio cyber, ma certo gli LLM aprono nuovi scenari di rischi. Non solo per le aziende che li usano, ma anche per terzi e la società intera.
Red Teaming e sicurezza LLM: benchmark e framework per misurare i rischi cyber
Ci sono strumenti per orientarsi nelle capacità cyber degli LLM. Benchmark e framework. I benchmark dicono quanto è bravo un modello in compiti cyber; i framework dicono quali controlli scattano quando quella bravura comincia a diventare un rischio
Tra i benchmark più citati c’è CyBench, sviluppato in ambito Stanford: valuta agenti LLM su 40 task professionali di capture the flag presi da quattro competizioni, con sottotask intermedi per capire non solo se il modello arriva al risultato, ma dove si ferma lungo la catena operativa. Il limite è noto: misura bene abilità tecniche in ambienti controllati, meno il caos di un’intrusione reale.
Per avvicinarsi di più al mondo esterno, nel 2025 è arrivato CVE-Bench, costruito su 40 vulnerabilità critiche reali di applicazioni web: negli esperimenti iniziali, gli agenti migliori riuscivano a sfruttarne fino al 13%.
Un terzo riferimento utile è HCAST di Metr, una suite più ampia di 189 task su cyber, software engineering, ML e ragionamento, pensata per collegare la performance del modello al tempo che impiegherebbe un umano esperto a completare lo stesso compito.
Framework per governare i rischi della sicurezza LLM
Su questa linea si muove anche l’Aisi britannico, che non pubblica solo benchmark ma una lettura di tendenza: nel suo report di dicembre 2025 scrive che la durata dei task cyber che i modelli riescono a completare senza aiuto umano sta raddoppiando in circa otto mesi, e che nel 2025 è comparso il primo sistema capace di completare task “expert-level”. I framework servono a un altro scopo: non misurano soltanto, decidono che cosa fare quando una soglia viene superata.
L’OpenAI Preparedness Framework, aggiornato nell’aprile 2025, tratta la cyber capability come una categoria di rischio da valutare prima del rilascio; il Frontier Model Forum, in un report del 13 febbraio 2026, prova invece a definire elementi comuni per fissare soglie e mitigazioni condivise tra laboratori.






