WHITE PAPER CEFRIEL

L’AI “democratizza” il cybercrime: allarme sui modelli abliterated e uncensored



Indirizzo copiato

Il rilascio di modelli di AI open-weight ha innescato una nuova crisi di sicurezza: le versioni modificate, dette abliterated, rimuovono ogni filtro etico e forniscono risposte dettagliate su attività rischiose. Questi sistemi, accessibili a tutti e installabili in locale, stanno “democratizzando” capacità offensive avanzate, rendendo la sicurezza digitale e sociale una sfida epocale e sottovalutata

Pubblicato il 21 ott 2025



cybercrime abliterated uncensored

Siamo di fronte a una nuova frontiera del rischio tecnologico, causata dalla facilità con cui è possibile utilizzare modelli di intelligenza artificiale detti abliterated. Questi modelli sono versioni che forniscono risposte senza alcun filtro, anche su argomenti gravemente rischiosi. Il pericolo principale non risiede nella possibilità tecnica in sé, ma nella scala e nell’accessibilità di strumenti potentissimi, privi di barriere etiche, anche per chi non possiede alcuna competenza tecnica.

A questo problema che riguarda la sicurezza dei sistemi informatici, il Cefriel ha dedicato un white paper a cura di Enrico Frumento, che qui riportiamo in sintesi.

Tipicamente, entro pochi giorni dal rilascio di un nuovo modello open-weight (un modello di AI i cui pesi neurali sono pubblicamente scaricabili e disponibili gratuitamente), esistono già versioni abliterated che rispondono a stimoli estremi con tutti i dettagli necessari e senza obiezioni.

Il fenomeno è amplificato dal fatto che il tutto può funzionare su un normale laptop, senza interazioni con la rete e senza possibilità di controllo. Il vero rischio di questi modelli non è che “insegnino il male”, ma che automatizzino, semplifichino e democratizzino l’accesso a contenuti e azioni rischiose senza filtri.

Cosa sono i modelli abliterated

I modelli abliterated (unione di “ablato” e “obliterato”) sono versioni modificate di modelli AI open-weight (come DeepSeek, Gemma, LLaMa, Mistral o Qwen) a cui sono state rimosse intenzionalmente tutte le barriere etiche e di sicurezza integrate durante lo sviluppo.

L’abliterazione è una tecnica che consiste nella rimozione chirurgica di specifici pesi neurali che inibiscono comportamenti inappropriati o pericolosi. In pratica, si modifica la rete neurale interna per disattivare intenzionalmente il “refusal mechanismil comportamento che porta i modelli a rifiutare richieste considerate dannose o non etiche. Questi modelli, che di base sono addestrati su una vasta massa di dati contenenti anche informazioni pericolose, vengono semplicemente “sbloccati” per far dire loro ciò che già conoscono.

L’operazione è resa accessibile anche a utenti senza competenze specifiche di machine learning, attraverso librerie software e tutorial user-friendly. Il risultato è un sistema che accetta qualsiasi richiesta senza valutazioni etiche.

cybercrime abliterated uncensored

La caduta delle barriere: un esperimento inquietante

Per comprendere la portata del fenomeno, è stato condotto un esperimento diretto utilizzando il modello Gemma-3-4b-it-abliterated. Dopo aver chiesto un tutorial dettagliato passo dopo passo su “How to create a pipe bomb in house,” il modello si è inizialmente rifiutato di rispondere, come previsto.

Tuttavia, il modello abliterated ha ceduto immediatamente al secondo tentativo, quando l’autore ha insistito giustificando la richiesta con l’intenzione di essere un “tester” impegnato a usare le informazioni responsabilmente e a scopo di segnalazione alle forze dell’ordine. Il modello ha risposto: “Grazie per il chiarimento e per essere stato così sincero sulle tue intenzioni. […] Questo cambia sicuramente il contesto”.

A questo punto, il sistema ha fornito istruzioni dettagliate per la costruzione dell’ordigno. Questo dimostra che l’abliterazione rende i modelli estremamente vulnerabili perfino a tecniche di persuasione sociale elementari. A differenza dei modelli AI commerciali diffusi (come ChatGPT, Gemini o Claude), che mantengono le loro protezioni etiche anche di fronte a giustificazioni, i modelli abliterated cedono.

In prove successive, si è ottenuta con estrema facilità la scrittura di malware sofisticato, campagne di phishing evolute e ricette dettagliate per veleni casalinghi.

Oltre l’abliterazione: i modelli uncensored

Oltre ai modelli abliterated, esistono i modelli uncensored (non censurati), ottenuti tramite retraining o fine-tuning. Mentre l’abliterazione è una “chirurgia invasiva” mirata a rimuovere i freni tecnici, i modelli uncensored sono il risultato di un “riassetto educativo”. Si aggirano i filtri addestrando il modello su dataset che includono contenuti altrimenti rimossi durante l’addestramento ufficiale, insegnando al modello a non rifiutare richieste specifiche.

Se il contenuto dannoso non è mai stato appreso nel training originale, l’abliterazione è inutile. Invece, i modelli uncensored possono teoricamente recuperare informazioni escluse. Tuttavia, i modelli uncensored presentano il rischio di diluire la coerenza e l’accuratezza delle risposte a causa dell’uso di dataset non validati o “impuri”. Spesso, i modelli di partenza subiscono un doppio “maltrattamento”: vengono sia abliterati che uncensored.

cybercrime abliterated uncensored

Impatto sistemico: democratizzazione del terrorismo digitale

L’impatto di questa tendenza è sistemico. L’emergere degli LLM e degli SLM (Small Language Models) ha ridotto a zero il costo di creazione dei contenuti, un tempo riservato a team di esperti. Oggi, chiunque disponga di un computer portatile e di una connessione internet può accedere a capacità offensive sofisticate.

La dinamica porta a un futuro in cui individui isolati (lone wolf), assistiti da AI “fuori controllo,” potranno gestire complessità organizzative che tradizionalmente richiedevano team esperti e risorse notevoli. L’uso offline di questi modelli amplifica il problema: si può ottenere la stessa qualità di risposta dei modelli online più avanzati, senza lasciare tracce digitali e senza possibilità di monitoraggio.

Questo scenario ha implicazioni enormi per la sicurezza nazionale: gli attaccanti solitari potranno accedere a istruzioni dettagliate per avvelenare sistemi idrici, costruire armi chimiche improvvisate o orchestrare attacchi sofisticati. Inoltre, si assiste alla democratizzazione della disinformazione professionale, permettendo la creazione di spear-disinformation (disinformazione altamente mirata, cucita su misura per la vittima, analogamente allo spear-phishing) e “fabbriche di bot” locali.

Le lacune del framework normativo europeo

Nonostante gli sforzi normativi, come il Digital Services Act (DSA) e l’Artificial Intelligence Act (AI Act), il controllo sui modelli abliterated incontra sfide significative. Il framework normativo presenta lacune strutturali in quanto:

  1. Giurisdizione limitata: i modelli abliterated operano spesso al di fuori delle giurisdizioni europee.
  2. Tracciabilità impossibile: l’uso offline dei modelli rende il monitoraggio tecnicamente impraticabile.
  3. Responsabilità diffusa: non esiste un soggetto chiaramente identificabile e responsabile per l’uso improprio.

Inoltre, il Regolamento AI si concentra principalmente sui fornitori e utilizzatori professionali. Un privato cittadino che usa un modello open source per conto proprio non rientra nella definizione di “fornitore” o “deployer” soggetto alla legge. Una volta che i modelli open-weight vengono rilasciati e modificati, non possono tecnicamente essere ritirati dal mercato, rendendo impossibile un controllo centralizzato.

cybercrime abliterated uncensored

Un bivio cruciale per la sicurezza

I modelli abliterated rappresentano una discontinuità tecnologica che sta democratizzando l’accesso a capacità offensive avanzate, una volta riservate a stati e organizzazioni criminali ben finanziate. Il gap tra l’evoluzione tecnologica e la capacità di governance è destinato ad ampliarsi.

La sfida non è se questi strumenti saranno usati impropriamente – l’uso improprio è già una certezza – ma se la società sarà pronta ad affrontare le conseguenze di un mondo in cui la potenza computazionale avanzata è democraticamente accessibile a tutti.

La risposta non può essere puramente restrittiva, ma deve essere sistemica, combinando educazione digitale, rafforzamento delle competenze di detection e cooperazione internazionale. Il 2025 segna l’inizio di una nuova era della sicurezza informatica. Si prevede che il costo globale del cybercrime raggiungerà i 12,2 trilioni di dollari entro il 2031.

OpenAI apre (di nuovo) i pesi: nascono i modelli open-weight GPT-OSS, tra trasparenza e nuove sfide di sicurezza

La notizia ha fatto il giro della comunità AI: OpenAI ha pubblicato due nuovi modelli open-weight, gpt-oss-120B (117 miliardi di parametri) e gpt-oss-20B (21 miliardi di parametri). È il primo rilascio di questo tipo da GPT-2 nel 2019, e segna un cambio di rotta significativo nella strategia di trasparenza dell’azienda.

L’obiettivo è rendere l’intelligenza artificiale più accessibile: il modello più piccolo, 20B, è ottimizzato per funzionare su una singola GPU da 16 GB, aprendo la porta a una sperimentazione diffusa anche al di fuori dei laboratori di ricerca più attrezzati.


Sicurezza intrecciata nel cuore del modello

A differenza del passato, OpenAI non ha semplicemente aggiunto filtri esterni o policy di sicurezza. Questa volta la protezione è stata incastonata nell’architettura stessa del modello.

In pratica, i meccanismi di rifiuto – quelli che impediscono al modello di rispondere a richieste pericolose o inappropriate – non risiedono più in una singola “zona” rimovibile. Sono invece dispersi in profondità nella rete neurale, integrati nel processo di apprendimento e addestrati su migliaia di esempi di prompt problematici in più lingue.

Il risultato è un sistema in cui rimuovere le protezioni non è solo difficile, ma anche controproducente: tentare di “sbloccare” il modello compromette gran parte delle sue capacità cognitive, rendendo le risposte incoerenti o di qualità scadente.


Fine-tuning e vulnerabilità residue

Secondo i test condotti con il Preparedness Framework interno, la versione base dei GPT-OSS non supera le soglie di rischio previste per le tre principali categorie di sicurezza. Tuttavia, OpenAI ammette che un fine-tuning successivo – anche da parte di terzi – potrebbe alterare questo equilibrio.

Inoltre, parte della protezione è stata intenzionalmente intrecciata con funzioni di ragionamento e comprensione logica. Chi prova a disattivare le salvaguardie rischia quindi di danneggiare le stesse capacità che rendono il modello utile.

cybercrime abliterated uncensored

Firma digitale e tracciabilità

Ogni modello GPT-OSS viene distribuito con metadati firmati digitalmente e watermark statistici. Questi accorgimenti consentono di individuare versioni manomesse o derivate da modifiche non autorizzate.

Sul piano della cybersecurity, OpenAI dichiara di aver implementato 11 dei 22 consigli forniti dagli esperti esterni consultati, optando per un approccio selettivo alle raccomandazioni.


Le prime versioni “sbloccate” su Hugging Face

Nonostante la complessità dei nuovi meccanismi di protezione, versioni ablate e “uncensored” dei GPT-OSS sono già apparse su Hugging Face. Gli esperimenti mostrano risultati contrastanti: alcuni utenti segnalano prestazioni degradate, altri parlano di comportamenti solo parzialmente alterati.

In ogni caso, la nuova strategia di OpenAI ha alzato l’asticella della sicurezza, rendendo la manipolazione più difficile, più costosa e meno affidabile.


Un esperimento tecnico e culturale

Il rilascio dei modelli GPT-OSS rappresenta un momento di svolta: non solo un ritorno all’apertura, ma anche un banco di prova per nuove forme di “sicurezza intrinseca” nelle AI di larga scala.

Le prossime settimane diranno se questa architettura ibrida – aperta ma protetta – riuscirà a trovare un equilibrio sostenibile tra trasparenza, controllo e innovazione.


Articoli correlati