Common data spaces: come i dati sintetici proteggono la privacy

La tecnologia dei dati sintetici è un approccio rivoluzionario alla protezione della privacy, che rende possibile la mobilità dei dati anche per le informazioni altamente sensibili. La creazione avviene attraverso l’Intelligenza Artificiale generativa, in particolare attraverso le Generative Adversarial Networks (GANs) e i Variational Autoencoders (VAE)

Common data spaces. Di cosa stiamo parlando? Le organizzazioni in settori che vanno dalla sanità alla finanza, dal commercio al dettaglio al settore pubblico, hanno tutte a disposizione grandi quantità di dati e sono sempre più consapevoli che questi contengono un valore immenso. Questi dati di cui dispongono possono essere infatti analizzati, utilizzati per addestrare modelli di intelligenza artificiale e scambiati con terzi. Ciò porterebbe benefici diretti alla società in generale attraverso la medicina algoritmica, l’elaborazione di politiche ambientali basate sui dati, l’automazione dei processi e altro ancora. Per questo motivo istituzioni come l’Unione Europea e il G7 si stanno impegnando per sviluppare politiche di promozione di spazi di dati condivisi (“common data space”, appunto) che possano promuovere la crescita economica, la ricerca e lo sviluppo della società. Allo stesso tempo, la privacy, la fiducia e il controllo dei cittadini sui loro dati devono e dovranno essere salvaguardati.

Indice degli argomenti:

Che cosa sono i common data spaces

I common data spaces sono ecosistemi di infrastrutture, buone pratiche e policy che consentono alla società di trarre vantaggio dalla disponibilità dei dati. Questi spazi sono spesso specifici per ogni settore. Ad esempio, nel 2022 l’UE ha lanciato lo Spazio Europeo dei Dati Sanitari (European Health Data Space, EHDS). Essendo il primo spazio comune di dati, è un ottimo esempio di come funziona un ecosistema di questo tipo. L’EHDS garantisce un accesso e un controllo sicuri delle informazioni attraverso un quadro giuridico solido. Alle sue fondamenta ha diversi atti giuridici dell’Unione Europea, come: il regolamento generale sulla protezione dei dati (GDPR), il Data Governance Act [1], il Data Act [2], e la Direttiva NIS2 (Network and Information System Security).

L’EHDS facilita ai cittadini l’accesso, la rettifica e il controllo dei propri dati sanitari in formato digitale, gratuitamente. Inoltre, prevede che i cittadini possano anche limitare direttamente l’accesso dei propri dati a qualsiasi soggetto, a loro discrezione. Si tratta di un grande passo avanti per la governance dei dati individuali. Vengono anche introdotti dei formati elettronici standardizzati per i dati sanitari, utilizzabili in tutta l’Unione Europea. Questo, di conseguenza, faciliterà la libera circolazione dei cittadini, così come l’utilizzo e la condivisione dei dati nei progetti di ricerca e innovazione.

L’EHDS impone anche standard di interoperabilità e sicurezza. I produttori di software e dispositivi medici che raccolgono o elaborano dati sanitari dovranno ottenere certificazioni che ne attestino la conformità. Gli Stati membri dell’UE dovranno nominare anche delle autorità per la salute digitale, con il compito di supervisionare la condivisione transfrontaliera dei dati.

Dati sintetici: Generative Adversarial Network (GAN) e variational autoencoders (VAE)

L’EHDS rappresenta un risultato straordinario per la democratizzazione dei dati personali. Il maggiore controllo individuale sui dati, i formati comuni e una legislazione chiara agevoleranno infatti la mobilità dei dati. Saranno previste comunque delle restrizioni stringenti per tutelare i cittadini. Le rigide linee guida sulla privacy e sulla sicurezza rappresenteranno infatti, in ogni caso, un limite per la ricerca e l’innovazione data-driven.

I dati, specialmente quelli sensibili, sono spesso inutilizzabili per questioni di privacy e sicurezza. La tecnologia dei dati sintetici è un approccio rivoluzionario alla protezione della privacy, che rende possibile la mobilità dei dati anche per le informazioni altamente sensibili.

Si definisce “dato sintetico” qualsiasi dato che non venga raccolto empiricamente, ma creato algoritmicamente: attraverso metodi innovativi di intelligenza artificiale, i dati sintetici possono essere costruiti con un incredibile grado di realismo. La creazione di dati sintetici avviene attraverso l’intelligenza artificiale generativa, in particolare attraverso le Generative Adversarial Networks (GANs) e i Variational Autoencoders (VAE).

GAN

La Gan è composta da due reti neurali artificiali: il network generatore e quello discriminatore. Volendo usare una metafora potremmo dire che il generatore è un criminale che produce banconote false;

ThisPersonDoesNotExist.com, — ThisPersonDoesNotExist.com

il discriminatore è il poliziotto che deve imparare a riconoscere quali banconote sono reali e quali false. La polizia diventa sempre più brava a riconoscere le banconote false, forzando il criminale a sua volta a diventare più bravo a falsificare le banconote. Se il criminale a sua volta diventa più bravo a falsificare le banconote, di conseguenza il poliziotto deve diventare più bravo a distinguere fra banconote false e banconote vere. Generatore e discriminatore si allenano a vicenda e sono in competizione, fino a che le banconote contraffatte non diventano iperrealistiche. Una delle prime ricerche che ha applicato la GAN è il progetto di ThisPersonDoesNotExist.com, sviluppato da alcuni scienziati alla fine del 2019.

VAE

Un’altra tecnologia sono i variational autoencoders (VAE). Si può spiegare il funzionamento dei VAE attraverso un esperimento mentale. Supponiamo di voler creare un set di dati artificiali per una certa popolazione. Attraverso una ricerca, si sono acquisite conoscenze su questa popolazione. Ad esempio, si sa che la distribuzione del sesso è uguale. Inoltre, si sa che circa una persona su sei ha gli occhi azzurri, mentre le altre hanno gli occhi marroni.

Per creare i dati di una persona artificiale, si fa un piccolo esperimento: prima si lancia una moneta. Se esce testa, si segna ”femmina”. Se esce croce, si segna ”maschio”. Poi si lancia un dado. Se dal dado esce il numero “6”, si segna ”occhi blu”. Se esce qualsiasi altro numero (1, 2, 3, 4, o 5), si segna ”occhi marroni”. Se si ripete questo esperimento migliaia di volte, si ottiene una popolazione artificiale che imita quella reale (in base a un teorema chiamato ”legge dei grandi numeri”).

I variational autoencoders funzionano in modo simile, ma (ovviamente) molto più sofisticato. Si noti che l’esperimento citato richiede una conoscenza preliminare avanzata della popolazione (attraverso una ricerca). Nel VAE, questo non è necessario: la tecnologia di intelligenza artificiale estrae tutti i pattern rilevanti direttamente dai dati. L’AI può dedurre, infatti, pattern che vanno ben oltre la comprensione umana. Pertanto, il realismo dei dati sintetici è incontestabile.

I dati sintetici rappresentano una grande opportunità per rendere le informazioni disponibili, in modo sicuro, ai fini della ricerca e dell’innovazione. Visto che i dati sintetici non contengono informazioni sensibili su individui reali, essi rendono infatti possibile lo spostamento e la condivisione dei dati su larga scala. Conciliano in questo modo le questioni legate alla privacy e l’innovazione data-driven. I dati sintetici permettono così di sviluppare common data spaces più evoluti e sicuri.

Synthetic DataOps Platform

Questo è l’ambito in cui l’azienda che ho fondato e che dirigo sta facendo ricerca innovativa: rendere il framework VAE originariamente concepito per la creazione di immagini sintetiche applicabile ai dati delle organizzazioni. Ciò include anche tipi di dati avanzati come ad esempio serie temporali e dati di geolocalizzazione. Sono compresi anche i database relazionali, in cui i dati sono raccolti in più tabelle interconnesse. Questa tecnologia è alla base della Aindo Synthetic DataOps Platform che, oltre alla generazione di dati sintetici, incorpora moduli per la gestione dell’intera catena del valore del dato: il labeling automatico, la strutturazione dei dati non strutturati, la business intelligence e altro ancora. Tutto ciò consente di passare dai dati grezzi alla creazione di valore senza soluzione di continuità. La piattaforma è quindi la prima ad automatizzare l’intera catena del valore dei dati, incorporando direttamente i dati sintetici e ovviando ai problemi legati alla privacy. Siamo costantemente spinti verso attività di ricerca e innovazione, come dimostra la nostra recente presenza a NeurIPS 2022, la più prestigiosa conferenza sull’AI.