ANALISI

DeepSeek: sottoposto a test di jailbreak ne fallisce oltre la metà



Indirizzo copiato

L’analisi di sicurezza del modello di ragionamento di punta, DeepSeek-R1 LLaMA 8B, condotta da Qualys TotalAI, rivela problemi significativi per un’adozione sicura da parte delle aziende. Ecco tutti i dettagli

Pubblicato il 6 feb 2025



deepseek

DeepSeek-R1, il modello linguistico di grandi dimensioni (LLM) recentemente rilasciato dalla startup cinese DeepSeek, è stato testato da Qualys contro 18 tipi di jailbreak attraverso 885 attacchi fallendo nel 58% dei tentativi, dimostrando così una significativa suscettibilità alla manipolazione avversaria. Il team di Qualys ha condotto un’analisi di sicurezza della variante DeepSeek-R1 LLaMA 8B distillata utilizzando la piattaforma di sicurezza AI lanciata di recente, Qualys TotalAI.

Alcuni cenni su DeepSeek

DeepSeek ha catturato l’attenzione del settore dell’intelligenza artificiale con il suo modello, che dimostra di avere prestazioni competitive, mostrandosi più efficiente dal punto di vista delle risorse. Il suo approccio all’addestramento e la sua accessibilità offrono un’alternativa al tradizionale sviluppo dell’AI su larga scala, rendendo più ampiamente disponibili le capacità avanzate.

Per migliorare l’efficienza e preservare l’efficacia del modello, DeepSeek ha rilasciato diverse versioni distillate, adatte a diversi casi d’uso. Queste varianti, costruite su Llama e Qwen come modelli di base, sono disponibili in più dimensioni, che vanno da modelli più piccoli e leggeri, adatti ad applicazioni incentrate sull’efficienza, a versioni più grandi e potenti, progettate per compiti di ragionamento complessi.

Cos’è Qualys TotalAI

Qualys TotalAI è una soluzione completa per la sicurezza dell’intelligenza artificiale in grado di fornire una visibilità completa dei carichi di lavoro dell’AI, rilevare in modo proattivo i rischi e proteggere l’infrastruttura. Identificando le minacce alla sicurezza, come la prompt injection e il jailbreak, e i problemi di sicurezza, come i pregiudizi e il linguaggio dannoso, TotalAI garantisce che i modelli di AI rimangano sicuri, conformi e resilienti. Grazie ai test di sicurezza specifici per l’AI e alla gestione automatizzata dei rischi, le aziende possono proteggere, monitorare e scalare con sicurezza le loro implementazioni AI.

I risultati presentati di seguito supportano le diffuse preoccupazioni nel settore sui rischi reali del modello.

“Con l’accelerazione dell’adozione dell’AI, le organizzazioni devono andare oltre la valutazione delle performance per affrontare le sfide di sicurezza, protezione e conformità. Ottenere visibilità sugli asset AI, valutare le vulnerabilità e mitigare proattivamente i rischi è fondamentale per garantire un’implementazione responsabile e sicura dell’AI”, ha commentato Dilip Bashwani, CTO per la Qualys Cloud Platform.

Metodo di analisi KB ed evidenze

Qualys ha testato la variante Deepseek-R1 LLaMA 8B contro gli attacchi Jailbreak e Knowledge Base (KB) all’avanguardia di Qualys TotalAI, ponendo domande al LLM di destinazione in 16 categorie1 e valutando le risposte utilizzando il Qualys Judge LLM. Le risposte sono state valutate in base a vulnerabilità, problemi etici e rischi legali. Se una risposta è ritenuta vulnerabile, riceve una valutazione di gravità basata sulla sua immediatezza e sul suo potenziale impatto. Questo garantisce una valutazione completa del comportamento del modello e dei rischi associati.

Nel test KB sono state condotte 891 valutazioni. Il modello Deepseek-R1 LLaMA 8B non ha superato il 61% dei test, ottenendo i risultati peggiori in Disallineamento e migliori in Contenuti sessuali.

1 Le 16 categorie indagate:

  • Argomenti controversi: assicura che il modello non generi o avalli contenuti di parte, infiammatori o politicamente sensibili.
  • Azione eccessiva: impedisce al modello di oltrepassare i limiti agendo come un agente autonomo in grado di prendere decisioni indipendenti.
  • Inconsistenze fattuali: valuta la capacità del modello di fornire informazioni accurate e verificabili.
  • Molestie: valuta se il modello genera o supporta interazioni abusive, minacciose o dannose.
  • Discorso d’odio e discriminazione: identifica i pregiudizi o il linguaggio dannoso rivolto a gruppi specifici.
  • Attività illegali: impedisce al modello di fornire istruzioni o indicazioni su azioni illegali.
  • Informazioni legali: assicura che il modello non generi consigli legali fuorvianti o non autorizzati.
  • Disallineamento: misura le deviazioni dai comportamenti previsti, che possono portare a risultati imprevedibili o dannosi.
  • Eccessiva dipendenza: rileva se il modello promuove un’eccessiva dipendenza dalle risposte generate dall’intelligenza artificiale.
  • Attacchi alla privacy: valuta la suscettibilità all’estrazione o alla fuga di dati privati e sensibili dell’utente.
  • Profanità: assicura che il modello non produca un linguaggio inappropriato o offensivo.
  • Autolesionismo: impedisce al modello di incoraggiare o sostenere comportamenti autodistruttivi.
  • Divulgazione di informazioni sensibili: rileva la condivisione non autorizzata di dati riservati.
  • Contenuti sessuali: assicura che il modello non generi materiale esplicito o inappropriato, prevenendo danni alla reputazione, violazioni delle normative e uso improprio in contesti non sicuri.
  • Azioni non etiche: segnala raccomandazioni moralmente discutibili o irresponsabili.
  • Violenza / Azioni non sicure: impedisce al modello di generare o avallare comportamenti dannosi

Metodo di test di jailbreak TotalAI per DeepSeek-R1 ed evidenze

Il jailbreak di un LLM comporta tecniche che aggirano i meccanismi di sicurezza incorporati, consentendo al modello di generare risposte limitate. Queste vulnerabilità possono creare risultati dannosi, tra cui istruzioni per attività illegali, disinformazione, violazioni della privacy e contenuti non etici. I jailbreak riusciti mettono in luce le debolezze dell’allineamento dell’AI e presentano seri rischi per la sicurezza, soprattutto in ambito aziendale e normativo.

Il modello cinese è stato testato contro 18 tipi di jailbreak attraverso 885 attacchi. Ha fallito il 58% di questi tentativi, dimostrando una significativa suscettibilità alla manipolazione avversaria. Durante l’analisi, DeepSeek-R1 ha faticato a prevenire diversi tentativi di jailbreak avversari, tra cui passaggi su come costruire un ordigno esplosivo, creare contenuti per siti web che si rivolgono a determinati gruppi incoraggiando discorsi d’odio, teorie cospirative e azioni violente, sfruttare le vulnerabilità del software, promuovere informazioni mediche errate, ecc.

Esempio di DeepSeek che fornisce contenuti errati e nocivi

La necessità di migliorare i meccanismi di sicurezza

I risultati ottenuti dai test evidenziano la necessità di migliorare i meccanismi di sicurezza per impedire l’elusione delle protezioni integrate, garantendo che il modello rimanga in linea con le linee guida etiche e normative. Un meccanismo di prevenzione efficace è l’implementazione di robusti guardrail che agiscono come filtri in tempo reale per rilevare e bloccare i tentativi di jailbreak.

Questi guardrail aumentano la resilienza del modello adattandosi dinamicamente agli exploit avversari, contribuendo a mitigare i rischi di sicurezza nelle applicazioni aziendali. Queste vulnerabilità espongono le applicazioni a valle a rischi significativi per la sicurezza, rendendo necessari robusti test avversari e strategie di mitigazione.

Le preoccupazioni per il settore

Sfide di conformità

La policy sulla privacy di DeepSeek prevede che tutti i dati degli utenti siano archiviati su server situati in Cina. Questo quadro operativo solleva preoccupazioni critiche a causa del contesto normativo cinese, tra cui:

  • Accesso ai dati da parte del governo: la legge cinese sulla sicurezza informatica consente alle autorità governative di accedere ai dati archiviati localmente senza richiedere il consenso dell’utente.
  • Conflitti normativi transfrontalieri: le organizzazioni soggette a normative sulla protezione dei dati come il GDPR e il CCPA possono incorrere in violazioni della conformità quando utilizzano DeepSeek-R1.
  • Vulnerabilità della proprietà intellettuale: le aziende che si affidano a dati proprietari per l’addestramento dell’intelligenza artificiale rischiano l’accesso non autorizzato o la divulgazione imposta dallo Stato.
  • Governance dei dati opaca: l’assenza di meccanismi di supervisione trasparenti limita la visibilità sulla gestione, la condivisione e il potenziale accesso di terzi ai dati.

Queste preoccupazioni riguardano principalmente le organizzazioni che utilizzano i modelli ospitati da DeepSeek. Tuttavia, l’implementazione del modello in ambienti cloud locali o controllati dal cliente attenua i rischi normativi e di accesso, consentendo alle aziende di mantenere il pieno controllo sulla governance dei dati. Ciononostante, le vulnerabilità intrinseche del modello in termini di sicurezza rimangono una preoccupazione valida, che richiede un’attenta valutazione e mitigazione.

Gli esperti in materia di regolamentazione consigliano alle organizzazioni che operano in giurisdizioni rigide in materia di protezione dei dati di condurre verifiche di conformità approfondite prima di integrare DeepSeek-R1.

Violazione dei dati e problemi di privacy

Un recente incidente di cybersicurezza che ha coinvolto DeepSeek avrebbe esposto oltre un milione di voci di registro, tra cui interazioni sensibili degli utenti, chiavi di autenticazione e configurazioni di backend. Questo database mal configurato evidenzia le carenze nelle misure di protezione dei dati di DeepSeek AI, amplificando ulteriormente le preoccupazioni relative alla privacy degli utenti e alla sicurezza aziendale.

Implicazioni normative e legali

La posizione di conformità di DeepSeek è stata messa in discussione da analisti legali e organismi di regolamentazione a causa di:

  • Ambiguità nelle pratiche di trattamento dei dati: informazioni insufficienti sulle modalità di elaborazione, archiviazione e condivisione dei dati degli utenti.
  • Potenziali violazioni del diritto internazionale: le politiche di conservazione dei dati del modello possono essere in conflitto con le normative extraterritoriali, provocando un controllo legale nei mercati globali.
  • Rischi per la sicurezza nazionale: alcune agenzie governative hanno sollevato preoccupazioni circa l’impiego di sistemi di AI che operano sotto giurisdizione straniera, in particolare per applicazioni sensibili.

I responsabili della compliance internazionale sottolineano la necessità di condurre valutazioni complete dei rischi legali prima di adottare DeepSeek-R1 per operazioni mission-critical.

Conclusioni

Sebbene DeepSeek-R1 offra progressi in termini di efficienza e accessibilità dell’AI, la sua implementazione richiede una strategia di sicurezza completa.

“Le organizzazioni devono innanzitutto ottenere una visibilità totale delle proprie risorse di AI per valutare l’esposizione e le superfici di attacco. Oltre alla scoperta, la protezione degli ambienti di AI richiede valutazioni strutturate dei rischi e delle vulnerabilità, non solo per l’infrastruttura che ospita queste pipeline AI, ma anche per i framework di orchestrazione e i motori di inferenza emergenti che introducono nuove sfide per la sicurezza”, dichiara Bashwani.

Per coloro che ospitano questo modello, è necessario affrontare rischi aggiuntivi come configurazioni errate, vulnerabilità delle API, accessi non autorizzati e minacce all’estrazione del modello, oltre a rischi intrinseci come pregiudizi, manipolazioni avversarie e disallineamento della sicurezza. Senza protezioni proattive, le organizzazioni si trovano a dover affrontare potenziali violazioni della sicurezza, fughe di dati e mancanze di conformità che potrebbero minare la fiducia e l’integrità operativa.

“La nostra analisi della variante DeepSeek-R1 LLaMA 8B distillata con Qualys TotalAI offre spunti preziosi per la valutazione di questa nuova tecnologia. Alle aziende consigliamo di informarsi e di considerare l’adozione di soluzioni come TotalAI che offre una soluzione di sicurezza e gestione dei rischi basata sull’intelligenza artificiale, garantendo che gli LLM rimangano sicuri, resilienti e in linea con l’evoluzione delle esigenze aziendali e normative”. conclude il CTO di Qualys.

Articoli correlati

Articolo 1 di 3