ANALISI

Cybersecurity: attenzione alla governance dei dati e al training degli algoritmi

Gli utenti finali dovranno adottare strumenti di sicurezza specifici per l’AI, allo scopo di mitigare i rischi di una realtà in cui si potranno acquistare con facilità output da sistemi “intelligenti”

Pubblicato il 20 dic 2023

Silvio Umberto Zanzi

IT manager Ammagamma

L’enorme hype intorno alle tematiche di intelligenza artificiale sta canalizzando l’attenzione sui problemi etici e sociali di queste tecnologie o sull’opportunità di un apparato normativo complesso, come quello in discussione presso gli organi comunitari. Temi certamente di grande importanza, che hanno però eclissato l’interesse verso la cybersecurity nell’ambito dell’AI.

Si tratta di un errore pericoloso in un settore in cui la qualità degli output è data sempre di più dalla qualità dei dati forniti per il training che dall’algoritmo impiegato. Si consideri che vi sono realtà in cui si è deciso di dedicare maggiori risorse al miglioramento dei dati di training, invece che agli algoritmi, vista l’alta qualità raggiunta da questi ultimi.

Indice degli argomenti:

Occorre una buona governance dei dati

I dati sono da sempre l’obiettivo di attori quali organizzazioni criminali e governi ostili. Un mondo che sta progressivamente abbandonando i sistemi tradizionali per adottare algoritmi di AI come ausilio per le decisioni è un mondo ricco di opportunità per questi attori avversi. Si tratta al contempo di un mondo più complesso per le organizzazioni che dovranno aggiornare il modello di analisi e gestione dei rischi con nuove voci e implementare nuove misure di gestione. Ai rischi tradizionali di sottrazione di informazioni o di “ostaggio” dei dati, tramite crypto-locker, si dovrà infatti considerare il nuovo scenario di “condizionamento”.

I sistemi di AI saranno sempre più impiegati dalle persone per prendere decisioni. Condizionare le decisioni potrebbe diventare una tendenza di hacking del prossimo futuro. Lo scopo potrebbe essere portato a termine attraverso il “poisoning” silenzioso dei dati di addestramento all’interno di una realtà che sviluppa o che personalizza sistemi di AI. Si tratta cioè di modificare l’insieme delle informazioni di training e di alterare i tag associati per fare in modo che il sistema fornisca risposte favorevoli all’attore ostile, senza destare sospetti e senza esibire comportamenti palesemente errati.

Questo scenario può essere scongiurato attraverso una buona governance dei dati, per esempio tramite la conservazione di versioni storiche dei set di training e dei metadati, opportunamente cifrate e firmate digitalmente. Non è però sufficiente. Si deve mantenere la documentazione dei rilasci nel tempo dei set di dati e si deve formalizzare in modo molto preciso la composizione dei dati utilizzati per il training in modo da poter individuare eventuali sbilanciamenti nei set.

L’utilizzo a posteriori di queste informazioni è fondamentale per rivelare possibili manipolazioni.

La necessità di rimanere nel perimetro dell’AI Act

La governance deve perciò essere un punto fermo e comunque rientra nel perimetro dell’AI Act nei casi di rischio elevato. Nonostante l’adozione di queste buone pratiche non risulterà comunque semplice individuare alterazioni in quanto sarà necessario un lavoro di dettaglio da parte degli specialisti per esaminare l’ambiente in esecuzione.

Per questo motivo resterà fondamentale impiegare le tecnologie consolidate di sicurezza, per evitare l’ingresso nel proprio ambiente informatico di intrusi e per ottenere segnalazioni nel caso in cui le protezioni del perimetro siano fallite e l’attore ostile stia già operando all’interno. In questo campo, i sistemi di log dettagliati e la correlazione sono tecnologie importanti e lo saranno sempre di più.

Le società che sviluppano dataset o prodotti di AI dovrebbero porre molta attenzione al personale interno, segregando gli accessi in modo minuzioso e avendo meccanismi per segnalare comportamenti irregolari nelle aree dove sono memorizzati i dati.

Gli approcci di hacking tradizionali

L’alterazione dei set è un’attività per agenti ostili “pazienti”. Il tempo che intercorre tra l’attuazione dell’azione malevola e il risultato del condizionamento potrebbe infatti essere molto lungo. Maggiore è il tempo tra attacco e risultato, maggiore è la probabilità di essere individuati e fermati. L’attività è inoltre complessa per gruppi hacker senza competenze specifiche in ambito AI.

Potrebbe quindi essere più fruttuoso un approccio tradizionale: invece di manipolare la conoscenza si potrebbe catturare l’input inviato dall’utente verso il sistema di AI, riscriverlo in modo occulto e veicolarlo al sistema di AI, che evidentemente fornirà una riposta differente. L’utente potrebbe quindi essere manipolato senza che il piano di governance e sicurezza dei set di training sia in alcun modo sabotato.

In maniera analoga si potrebbe attaccare il canale di output e fornire all’utente risposte completamente artefatte. Sequestrare una sessione utente è un metodo di hacking “classico”, anche se non di semplice implementazione, quindi percorribile da gruppi di hacker tradizionali.

Nella valutazione dei rischi si deve sempre considerare che la complessità dell’eventuale attacco dipende sempre dal valore che la manipolazione del sistema di AI potrebbe portare alle tasche (o alle necessità politiche) dell’attore malevolo.

Attacco allo stato del sistema di AI

Vi sono, inoltre, forme di attacco a sistemi di AI più complesse da portare a termine. La letteratura tecnica riporta spesso l’eventualità di accedere al sistema dove è in esecuzione il sistema di AI allo scopo di manipolarne lo stato. In questo caso la difficoltà non è l’accesso alla rete interna e poi al sistema o ai sistemi di AI. La complessità è comprendere come modificare ad arte lo stato per ottenere la manipolazione necessaria al proprio scopo. A volte è difficile perfino per gli sviluppatori di sistemi AI ripercorrere gli stati e comprendere le interrelazioni durante il funzionamento. Appare quindi uno scenario di attacco molto difficile da realizzarsi.

Conclusioni

La diffusione dei sistemi di AI sta stimolando discussioni importanti in ambiti filosofici, morali e legislativi. Questi nuovi sistemi sono però oggetto di grande interesse anche da parte di attori ostili. L’industria presto reagirà con prodotti di cybersecurity oggi ancora inesistenti, adatti a mitigare i rischi di manipolazioni. In un futuro prossimo gli utenti finali dovranno adottare strumenti di cybersecurity specifici per l’AI, allo scopo di mitigare i rischi derivanti da un mondo in cui si potranno acquistare con facilità output da sistemi “intelligenti”.

@RIPRODUZIONE RISERVATA