Client Side Scanning CSS reati informatici pedopornografici

Come sta a indicare il termine, il CSS agisce scansionando fotografie e messaggi prima che vengano inviati da un utente o dopo averli ricevuti da un altro utente, al fine di determinare se contravvengano ai divieti imposti dalle leggi

Purtroppo, molte volte l’utilizzo delle nuove tecnologie non viene utilizzato per finalità oneste, anzi, corre a vantaggio di chi della tecnologia e delle nuove forme di comunicazione fa un uso tremendo come il commercio, la diffusione e la fruizione di materiale pedopornografico. Negli ultimi dieci anni il fenomeno si è purtroppo amplificato e vi è stato un incremento nella produzione, nella condivisione e nella vendita di materiale attraverso i canali digitali. Può esistere una tecnologia per limitare tali fenomeni? Esiste una metodologia che possa monitorare la diffusione di immagini vietate e che non vada a interferire con la privacy degli utilizzatori? Analizzando le indagini della Polizia Postale – indicate con gli acronimi CEM (Child Exploitation Material) o CSAM (Child Sexual Abuse Material), di seguito in dettaglio – è possibile notare che le due metodologie maggiormente menzionate sono il dark web e le piattaforme di messaggistica istantanea. I canali di instant messagging diventano quindi degli amplificatori di materiali reperiti sul dark web abbattendo i limiti imposti dalla mancanza di competenze informatiche e protetti dalla presenza della crittografia End-to-End (E2E) nelle comunicazioni effettuate attraverso app di messaggistica istantanea. Il Client Side Scanning (CSS) è visto come una possibile soluzione che può essere adottata senza i potenziali costi negativi della degradazione della crittografia.

Indice degli argomenti:

Che cos’è la crittografia E2E

La crittografia E2E è tra gli strumenti più conosciuti e utilizzati per proteggere i dati degli utenti connessi al web nelle conversazioni biunivoche.

Questa tecnica per proteggere la privacy e le comunicazioni basa il proprio funzionamento su un doppio paio di chiavi crittografiche necessarie per cifrare e decifrare i messaggi. Ogni utente, infatti, utilizza una chiave pubblica e una chiave privata, legate tra loro in maniera indissolubile. Le comunicazioni, pur viaggiando attraverso canali “scoperti” e potenzialmente intercettabili, sano leggibili solo dal dispositivo che ospita la chiave privata legata alla chiave pubblica utilizzata nel processo di crittografia.

I database CAID e ICSE

Passi importanti sono stati compiuti dalle Autorità a livello organizzativo per contrastare il fenomeno. Sono stati creati database centralizzati come il Child Abuse Image Database (CAID) organo sotto il controllo del Governo britannico e l’International Child Sexual Exploitation (ICSE) della Interpol. Questi strumenti sono fondamentali per permettono:

• meno tempo per rivedere le immagini. In precedenza, un caso con 10mila immagini richiedeva in genere fino a 3 giorni. Ora, dopo aver confrontato le immagini oggetto di indagine con il database CAID, un caso come questo può essere riesaminato in un’ora;

• contribuire a spostare l’equilibrio tra la revisione delle immagini e l’identificazione delle vittime. Il nuovo sistema è molto più veloce e riconosce le vittime più velocemente;

• usare il set di hash CAID come parte del processo di analisi sulla scena per identificare i dispositivi che contengono immagini di abuso. Questo processo aiuta a ridurre il numero di dispositivi che le forze di Polizia devono sequestrare, a volte di più della metà.

Cos’è il Client Side Scanning (CSS)

Il Client Side Scanning (CSS) è il concetto che attraverso alcune forme di implementazione tecnologica potrebbe essere sviluppato per scansionare fotografie e messaggi prima che vengano inviati da un utente (o dopo aver ricevuto da un altro utente) al fine di determinare se le immagini o i messaggi in questione contravvengono ai divieti imposti dalle leggi.

Nella sua configurazione più ovvia, un file crittografato contenente immagini di abusi sessuali su minori verrebbe scansionato prima che un utente possa inviare quel file utilizzando un’applicazione di comunicazione. L’immagine sarebbe confrontata con un elenco di immagini illegali note e interdette prima che l’immagine fosse inviata.

Tale metodologia contrasta con coloro che ritengono che l’unico modo per combattere la crescita della pornografia infantile e altre comunicazioni illecite sia degradare la sicurezza dei sistemi di crittografia per controllare più approfonditamente.

Conseguentemente, il Client Side Scanning a volte è visto come una possibile soluzione che può essere adottata senza i potenziali costi negativi della degradazione della crittografia. La concezione è un po’ idealizzata, dal momento che sconta i problemi associati alla necessità tecnica per il monitoraggio centralizzato dei messaggi da parte delle aziende tecnologiche.

Per le forze dell’ordine, i potenziali punti di intervento includono i punti di creazione, aggregazione, distribuzione e ricezione di queste immagini. La situazione attuale è tale che il CSAM viene spesso trasmesso in forma crittografata attraverso le chat di messaggistica istantanea ed è spesso distribuito così ampiamente che la sorveglianza mirata dei destinatari è inefficace, se non impossibile.

L’idea di scansionare le immagini prima che vengano inviate o mentre vengono ricevute, cerca di intervenire prima nella catena di distribuzione prima o dopo che si verifica la trasmissione crittografata.

La crittografia, tuttavia, ha anche vantaggi positivi nel migliorare la privacy e proteggere le forze dell’ordine e gli interessi di sicurezza nazionale proteggendo le comunicazioni.

In quel contesto, CSS è visto come una soluzione che risolve le questioni relative a costi e benefici in un modo che evita alcuni dei danni più significativi derivanti dal degrado della crittografia.

Fonte: Wikipedia

Come funziona il Client Side Scanning: gli hash

La scansione lato client è un sistema in base al quale le informazioni possono essere scansionate e contrassegnate per la revisione prima della trasmissione. Nella forma più comune proposta, prevede il confronto dell’hash di una fotografia destinata alla distribuzione con un file contenente gli hash di materiale CSAM noto.

Fondamentalmente, una vera funzione hash funziona in modo univoco: la stessa immagine viene convertita nello stesso hash e solo quell’immagine viene convertita in quel valore hash.

In caso di corrispondenza indicante il possesso di CSAM, il sistema può generare un avviso di qualche forma. In particolare, gli “hash” coinvolti non sono veri, puri hash crittografici piuttosto, sono quelli che sono noti come “hash fuzzy” che hanno un piccolo ma definito tasso di errore teorico associato alla funzione di corrispondenza.

CSS, dove collocare la scansione

Il meccanismo di scansione potrebbe risiedere nel sistema operativo di un dispositivo, ovvero all’interno del sistema operativo Apple o Google per un dispositivo mobile. In alternativa, si può anche immaginare un’architettura in cui il meccanismo di scansione è parte dell’applicazione di comunicazione, in altre parole, la funzionalità di scansione è incorporata nell’applicazione e fa parte, ad esempio, di WhatsApp o Telegram.

Esiste un accordo generale sul fatto che la scansione a livello di sistema operativo pone problemi tecnici e di sicurezza informatica molto più significativi. I sistemi di scansione del sistema operativo sarebbero sicuramente più invasivi e richiederebbero autorizzazioni maggiori con un accesso più profondo alle informazioni su un dispositivo, con rischi significativi per la privacy e la sicurezza.

Qualunque sia l’architettura scelta, la natura distribuita dei sistemi CSS ha diverse significative implicazioni tecniche. Innanzitutto, il fatto che il database degli hash sfocati o una loro rappresentazione risieda su dispositivi distribuiti rende probabile che gli utenti alla fine (se non rapidamente) saranno in grado di determinare se un’immagine è una probabile corrispondenza con il database degli hash, consentendo loro di ideare metodi per evitare o eludere i suoi limiti.

Allo stesso modo, indipendentemente dal fatto che risiedano a livello di sistema operativo o di app, la natura non crittografata della maggior parte delle applicazioni significa che almeno alcuni aspetti degli algoritmi CSS saranno disponibili al pubblico. Ciò è particolarmente problematico perché, oggi, i sistemi di confronto hash CSS, come PhotoDNA, non sono pubblici.

Quanto più diffuso è un sistema, tanto maggiore sarà il controllo che riceverà, e più è probabile che, a un certo punto, venga compromesso. Tuttavia, dato il caso d’uso previsto per i sistemi CSS, possono essere efficaci solo se ampiamente distribuiti.

CSS, problemi di implementazione

Il modo in cui viene implementata la scansione lato client avrà un impatto diretto sia sulla fattibilità che sull’impatto di qualsiasi programma applicativo. Sarà mai possibile rendere obbligatoria l’inclusione dei CSS nelle applicazioni di comunicazione (o nei sistemi operativi) in un modo simile alla prassi di accesso ai sistemi di telecomunicazione è obbligatorio?

L’ inclusione di sistemi CSS nelle parti di comunicazione di un prodotto può essere una condizione per mantenere il contenuto sicuro.

C’è anche la questione correlata se le distribuzioni CSS avranno o meno la capacità di controllo da parte dell’utente finale. In altre parole, si possono immaginare alcune implementazioni tecniche che consentirebbero a un utente di disattivare la funzione di screening CSS, ad esempio, in un’applicazione di comunicazione?

Ma se il CSS fosse un componente obbligatorio di qualsiasi applicazione di comunicazione installata (o sistema operativo), ciò implicherebbe sicuramente le preoccupazioni del Quarto Emendamento USA e del GDPR Europeo, portando l’attenzione sulle questioni fondamentali di privacy e protezione dei dati.

CSS, problemi di controllo

Ma quale entità sarà la fonte dell’elenco dei contenuti vietati? E chi può definire i termini in base ai quali un contenuto viene aggiunto (o non aggiunto) all’elenco dei divieti?

Ciò solleva preliminarmente una questione di trasparenza. Chi sa cosa c’è in un database CSAM e chi può controllarlo? Sebbene la trasparenza sia, nel complesso, un valore positivo, la sfida in questo caso potrebbe essere che una maggiore trasparenza crei una maggiore disponibilità di CSAM, un risultato veramente perverso.

L’uso di un elenco controllato dalle Autorità implicherebbe necessariamente considerazioni sulla libertà di parola: metterebbe gli organismi preposti nella difficile posizione di definire il contenuto ammissibile.

Altro passaggio importante potrebbe essere sulle procedure da attuare quando le informazioni segnalate avessero una corrispondenza hash positiva con materiale offensivo? I CSS potrebbero semplicemente impedire la trasmissione di contenuti dannosi: un hash corrispondente, in effetti, disattiverebbe il sistema di comunicazione.

Oppure, in modo un po’ più ambizioso, oltre a vietare la trasmissione, un’applicazione CSS potrebbe informarne il fornitore di servizi che l’ha installata e gestita o le forze di polizia.

A meno che tale sistema non diventi obbligatorio in futuro è improbabile che gli utenti scelgano volontariamente un sistema con accesso diretto alle forze dell’ordine. E poiché la notifica sarebbe un passo per ulteriori indagini, dovrebbe essere gestita con regole procedurali che descrivano quando tali corrispondenze sarebbero trasmesse e precisamente quali ulteriori passaggi investigativi sarebbero consentiti.

Il problema dei falsi negativi

Un aspetto critico di questo punto è il problema dei falsi negativi: quante istanze di CSAM mancheranno all’algoritmo di corrispondenza, ad esempio, a causa di piccoli cambiamenti nel contenuto. Ma la questione dell’efficacia implica anche la sfida dei falsi positivi. Esiste il rischio che contenuti non dannosi vengano erroneamente identificati come dannosi?

Non è difficile immaginare che i regimi autoritari riproporrebbero la tecnologia di scansione lato client per mantenere il loro potere politico. Ricordiamo che le immagini di Winnie the Pooh sono state vietate in Cina a causa della somiglianza dell’orsetto con il presidente Xi Jinping. Non è un grande sforzo immaginare che un controllo hash CSS venga implementato al servizio della soppressione del dissenso in Cina. C’è almeno qualche ragione per pensare che creare una tecnologia che offra questa possibilità potrebbe essere un errore strategico a livello geopolitico.

Il problema più insidioso potrebbe risiedere nel mitigare le conseguenze quando un’immagine fosse aggiunta in modo errato al database Per gli allarmi delle forze dell’ordine, significherà la deviazione di risorse scarse e l’inutile indagine penale su innocenti.

CSS, implicazioni informatiche

Un altro ulteriore problema è che il confronto hash a volte potrebbe richiedere così tanto tempo che la trasmissione del file potrebbe avvenire prima che l’avviso venga elaborato.

Parallelamente a questo è d’obbligo ricordare che la maggior parte degli utenti di telefoni in tutto il mondo utilizza ancora dispositivi di fascia bassa con una potenza di elaborazione limitata, una circostanza che potrebbe aggravare il problema del ritardo del confronto. Gli smartphone di fascia alta più adatti a eseguire sistemi di scansione lato client sono molto meno diffusi al di fuori dei ricchi paesi occidentali.

Indipendentemente dall’architettura specifica scelta, la selezione dell’implementazione avrà anche un impatto su valori fondamentali e solleverà questioni indipendenti dalla precisa metodologia adottata.

Qualsiasi sistema di scansione lato client dovrà fornire garanzie di sicurezza contro il degrado, l’interruzione, la negazione o la distruzione dei dati hash.

Il database NCMEC

Uno dei motivi è che il database hash sarà necessariamente ampiamente distribuito e disponibile al pubblico. Il database sarà, quindi, facilmente corruttibile. In altre parole, gli utenti potrebbero essere in grado di modificare il database per consentire la distribuzione di qualsiasi contenuto che desiderano eliminando il relativo hash. Allo stesso modo, poiché gli hash stessi non possono essere testati per garantire la loro conformità al materiale presentato (almeno non utilizzando le tecnologie attuali), non si può determinare se l’hash deployer ha incluso solo hash che sono legittimamente proibiti e non, ad esempio, ha aggiunto materiale all’elenco dei divieti per ragioni politiche che esulano dall’ambito previsto del sistema CSS basato su hash.

Relativamente alla sicurezza informatica di base, anche se fosse possibile garantire la sicurezza della consegna dell’hash list, è importante considerare ulteriormente le conseguenze che potrebbero derivare dall’inevitabile hacking delle applicazioni lato dispositivo o del sistema operativo in cui risiede un sistema di scansione lato client.

Ragionando invece sulla natura distribuita del sistema di scansione lato client ogni telefono, necessariamente, eseguirà la propria elaborazione, localizzando il confronto e, si spera, portando la potenza di elaborazione di molti milioni di dispositivi. Ma c’è un problema tecnico più ampio di scalabilità nella dimensione del database hash.

Oggi, il database NCMEC contiene più di 4 milioni di hash distinti di contenuti dannosi. Pur non avendo nessuna conferma in merito si presume che le limitazioni di Facebook siano da due a quattro volte più grandi (cioè tra 8 e 16 milioni di hash). Il sistema di Google utilizza l’intelligenza artificiale (nota anche come apprendimento automatico) per identificare i contenuti vietati e, di conseguenza, cresce ogni giorno.

La natura in costante crescita e in continua evoluzione del database hash porrà alcune interessanti sfide tecnologiche che cresceranno solo nel tempo tra cui anche la questione dell’impatto commerciale della scansione lato client sui dispositivi di consumo. Ovviamente, ciò causerebbe un maggiore utilizzo del processore e, quindi, una riduzione della durata della batteria.

Le principali indagini del CNCPO

Al fine di comprendere più da vicino queste vicende abbiamo pensato di raccogliere e nel seguito riportare le indagini più significative che hanno visto impegnata la Polizia Postale nella ricerca di materiale contenente le prove di tali reati, indicato con gli acronimi CEM o CSAM.

Tra le indagini più significative avviate dal CNCPO (Centro Nazionale di Contrasto alla Pedopornografia Online) nell’ambito dei reati di sfruttamento sessuale dei minori, condotte principalmente in modalità sotto copertura online anche nelle Dark Net, evidenziamo di seguito le principali di cui il web è pieno di informazioni in merito. Operazioni: “Luna park”, “Dark ladies”, “Dangerous images”, “50 community”, “Amnesia”, “Scacco matto”.

Ai fini della nostra trattazione, dobbiamo porre l’attenzione sul mezzo o canale tecnologico attraverso cui il materiale inquisito è stato diffuso. Di seguito riportiamo i numeri del rilevante incremento anno su anno dell’attività svolta dal CNCPO.

C.N.C.P.O.	2019	2020	Incremento
Casi trattati	1396	3243	+132,30%
Persone indagate	617	1192	+93,19%
Arrestati	37	69	+86,48%
Perquisizioni	510	757	+48,43%
GByte di materiale sequestrato	127.269	215.091	+69%

Alla luce dell’estratto delle operazioni compiute dalla Polizia e poc’anzi riportate crea sconcerto il fatto che con l’evoluzione tecnologica i canali di comunicazione per veicolare contenuti non autorizzati sono sempre più alla portata di tutti.

A livello mondiale, il fenomeno della pedofilia e della pedopornografia ha dimensioni impressionanti: in Europa, ogni anno quasi 18 milioni di bambini sono vittime di abuso sessuale. Online, ogni 7 minuti una pagina web mostra immagini di bambini abusati sessualmente. Negli Stati Uniti oltre 65.000 minori sono vittime di abusi sessuali, di cui circa il 40% sotto 10 anni di età, mentre il 30% aveva un’età compresa tra gli 11 e i 17 anni; in India ogni 15 minuti un bambino viene abusato sessualmente.

Conclusioni

Prendendo in considerazione tutti questi fattori, sembra ragionevole raggiungere una conclusione provvisoria: la scansione lato client è un’idea concettuale attraente ma ha troppe incertezze per essere già matura per l’adozione.

Resta da fare una seria analisi politica e valutazioni legali prima che la CSS sia pronta per l’esame legislativo.

Quindi possono essere offerte altre soluzioni? Non ci sono dubbi sul fatto che la diffusione di materiale pedopornografico sia un problema di reale importanza, e non sarebbe saggio semplicemente alzare le mani e ritenere il problema insolubile. Sono possibili alcune linee d’azione alternative, che implicano, per la maggior parte, la valutazione di attività non crittografate.

In altre parole, l’obiettivo è interrompere la scoperta di materiale dannoso, come CSAM. Dopo tutto, un fattore critico che consente la circolazione di materiale dannoso è la capacità di trovare quel materiale da qualche parte nel dark web.

Una possibile risposta è trovare modi per interrompere la scoperta sul dark web in modo che i repository di CSAM e altro materiale dannoso siano più difficili da trovare.

Un metodo utile per interrompere la distribuzione consiste nell’esaminare la condotta pubblica non crittografata. Anche se i messaggi rimangono crittografati e privati, ciò che si dice esteriormente (ad esempio, sulle porzioni pubbliche di una piattaforma di messaggistica) sarà spesso indicativo di comportamenti dannosi.

Allo stesso modo, potrebbero esserci segnali comportamentali all’interno di un’applicazione che consentirebbero di derivare un’inferenza di attività illegale. Alcuni di questi, come una velocità di digitazione non umana, potrebbero essere indicativi di attività automatizzate. Altri, come l’appartenenza a molti gruppi occultati, suggerirebbero uno sforzo per nascondere l’attività.

Un altro metodo prezioso per far emergere comportamenti dannosi è incoraggiare la segnalazione degli utenti al di fuori dei canali crittografati. Nel caso del CSAM, gli attori dovranno svolgere la loro attività, ad esempio, nelle chat room e spesso dovranno agire pubblicamente per contattare le possibili vittime.

Un ultimo modo tecnico per interrompere la distribuzione CSAM è limitare le capacità di diffusione di un’applicazione. Per alcuni tipi di file, si potrebbe immaginare di porre delle limitazioni al modo in cui tali file vengono condivisi all’interno di un sistema di comunicazione, ad esempio riducendo il numero di destinatari consentiti o limitando la dimensione dei file.

Poiché gran parte del CSAM è distribuito in blocco, ciò limiterebbe (ma non eliminerebbe) una parte del problema.

Alcune risposte non tecniche al problema

Infine, ci sono anche almeno alcune risposte non tecniche al problema che meritano un breve accenno. La maggior parte implica un’azione legislativa o esecutiva rafforzata. Senza approfondire l’argomento, è chiaro che gli sforzi delle forze dell’ordine contro il CSAM sono cronicamente sotto finanziati.

C’è una certa tensione di ottimismo tecnologico che pervade molte riflessioni su questioni intrattabili come la sfida dell’interdizione del CSAM. I politici hanno la speranza, quasi un’aspettativa, che se i tecnici si concentrano su questo, possono trovare una soluzione semplice al problema.

La scansione lato client è un’altra istanza di questo ottimismo. Di fronte alla pervasività e all’orrore dello sfruttamento minorile e al desiderio legittimo delle forze dell’ordine di intercettare materiale dannoso alla fonte, CSS è un sistema che offre quella che sembra essere una risposta accurata.

Ma l’accuratezza percepita è, alla fine, ingannevole. Almeno nelle sue versioni attuali, i sistemi di abbinamento hash CSS non sono tecnicamente robusti e mancano della trasparenza che favorisce la responsabilità.

In particolare, una qualsiasi delle possibili configurazioni dell’architettura solleverebbe una serie di complesse questioni legali e politiche. E tutto deve ancora ricevere una risposta definitiva, sia dai tecnici che potrebbero implementare il sistema, sia dai fautori che sostengono la sua considerazione.

Forse, con maggiore attenzione, verranno risolti i gravi problemi legali e politici inerenti alla scansione lato client. Ma per ora, quel duro lavoro resta ancora da fare.

Crittografia: il Client Side Scanning come strumento di contrasto ai reati informatici pedopornografici

Che cos’è la crittografia E2E

I database CAID e ICSE