AI, perché si fa ancora a meno delle conoscenze delle donne

I sistemi di Machine Learning e Symbolic Learning richiedono che la conoscenza umana sia codificata. Dal tipo di dati che vengono dati in pasto alla macchina, quindi, dipende il risultato finale. In molti casi, la conoscenza delle donne non è adeguatamente rappresentata in questo processo

Pubblicato il 10 Lug 2020

Darya Majidi

founder e Ceo di Daxo Group, founder e Ceo di DaxoLab, membro della Faculty della Singularity University Italia

Esistono ormai numerosi studi che dimostrano che progetti di AI non includenti le donne in fase di creazione, possono creare dei sistemi di AI non funzionanti correttamente, perché contengono quello che viene chiamato “unconscious bias”. In pratica chi crea il sistema inserisce dei bias (dati errati, dati mancanti, classificazione errata), in modo non consapevole. È ben noto ad esempio il caso di un sistema di AI di selezione di risorse umane di Amazon: i tecnici avevano creato un sistema per la scelta dei curricula di persone talentuose da coinvolgere nel proprio organico ed hanno notato che il sistema non selezionasse mai le donne. Dopo verifiche hanno capito che nel training set non avevano inserito una buona rappresentanza di curricula femminili.

Come funziona l’apprendimento automatico

Oggi giorno con la parola AI si intende soprattutto le tecniche di Machine Learning (ML) che trasformano i dati in conoscenza. Nelle reti neurali supervised, ad esempio, i sistemi, basandosi sui dati in input selezionati di fase di addestramento (training set), riescono a “imparare” le regole di classificazione e a validare questi in fase di testing (test set) e successivamente a usare questa conoscenza sui dati reali. È come quando a un bambino piccolo si fa vedere un oggetto indicandogli contemporaneamente il nome dell’oggetto. “Questo è un gatto”, “questo è un trenino”,” questa è una mela”. Associamo a ogni input una classificazione desiderata che viene memorizzata, nel bambino, nella sua rete neuronale e nei sistemi di AI nei modelli matematici che simulano una rete neurale. Questa classificazione prende il nome di labeling o etichettatura. Diventa quindi fondamentale che i dati selezionati per essere inclusi nel training set, siano il più completi possibile e rappresentativi del dominio in studio. Non possono mancare i dati significativi ed è ovviamente fondamentale non dare classificazioni errate o mancanti. Se ad esempio, a un bambino non facciamo mai vedere un particolare frutto, perché noi stessi non lo conosciamo, quando poi lo incontrerà non saprà come classificarlo. Chi effettua quindi la scelta dei dati e della loro etichettatura, inserisce, senza volerlo, la propria conoscenza (con i suoi limiti), il proprio modello dei dati e di classificazione nel sistema. Quindi è vitale, per avere un sistema corretto ed ampio, una accurata selezione dei dati del training set e una loro classificazione sapiente, coinvolgendo team non solo multidisciplinari, ma anche che includano la diversity in tutte le forme. La conoscenza, la rappresentazione e l’astrazione di molti domini variano in base al genere ed è evidente che i sistemi creati da soli uomini non hanno la completezza totale nella conoscenza di quel dominio.

I sistemi di ML supervised, di fatto, non fanno altro che inserire conoscenze esistenti in sistemi in grado di generalizzare questa conoscenza. I sistemi di ML unsupervised invece cercano nei dati non classificati a priori, pattern per creare dei clusters che hanno dati “simili”. Questi sistemi, se non supportati da conoscenze preliminari del dominio da esperti, spesso trovano classificazioni e conoscenze di base già note agli esperti. Sempre più, usando gli attuali sistemi di ML supervised e unsupervised ci accorgiamo delle loro lacune e limitazioni. Siamo ben lontani dalla macchina universale di Turing e da sistemi davvero “intelligenti”.

La conoscenza umana e il coinvolgimento delle donne

Siamo solo agli inizi di una nuova era dell’AI e dei sistemi cognitivi. Il ML in realtà è solo uno dei sotto insiemi dell’AI. Un’altra grande area dell’AI è il Symbolic Learning (SL). Il SL si basa sul concetto di estrarre la conoscenza di esperti umani e di formalizzarla in basi di conoscenza (knowlege base) e di utilizzare delle regole, per trasformare i dati di input in conoscenza in output (motore inferenziale). La conoscenza umana deve essere quindi codificata. Ma quale conoscenza? Non solo la conoscenza pubblica e dichiarativa di un dominio che può essere estratta dai libri e dalle pubblicazioni, attraverso motori di ricerca anche basati su ML, ma soprattutto la conoscenza cosiddetta procedurale e privata di esperti nei propri settori. Cosa fa di un chirurgo, un “bravo” chirurgo? Non certo la sua preparazione dichiarativa e pubblica, ma la sua conoscenza procedurale e la sua “esperienza” privata. Nei sistemi di supporto ed esperti basati sul SL, tali regole possono essere codificate nei knowledge base per essere a disposizione di tutti. Ma la conoscenza umana privata ovviamente è al 50% nella mente della popolazione femminile, che purtroppo a oggi è spesso esclusa dalla codifica dei knowledge base dei sistemi di AI. Ce lo possiamo permettere di “perdere” metà della conoscenza universale? A oggi solo il 13% delle risorse tecniche coinvolte nei progetti di AI sono donne, ed è ovvio che questo sta creando dei sistemi incompleti e ricchi di bias che paradossalmente faranno da amplificatori a questi bias.

Ecco che diventa fondamentale coinvolgere le donne in tutte le fasi e in tutte le discipline dell’AI: selezione degli obiettivi del sistema di AI, selezione dei dati e delle classificazioni, selezione della conoscenza da codificare nei knowledge base, ecc.

Storia di un progetto di un sistema esperto

Per anni c’è stata una competizione tra le due anime dell’AI. Il Symbolic Learning contro il Machine Learning. Ho vissuto in prima persona questa contrapposizione per poi trovare nei sistemi “ibridi” una soluzione adeguata. Nel 1993, ho pubblicato la mia tesi di laurea dal titolo: ”Neurex, un sistema esperto in grado di emulare i processi diagnostici neurologici”. Un progetto pionieristico che grazie a una collaborazione tra le Università di Siena e Pisa, univa le competenze dei ricercatori del Dipartimento di Informatica di Pisa, con le conoscenze dei clinici del Dipartimento di Neurofisiopatologia di Siena. Il sistema esperto, scritto in Prolog e in C, fu accolto dalla società scientifica con grande risalto tanto da ricevere poi fondi dal CNR e dall’Istituto Superiore di Sanità per essere approfondito. Dopo poco tempo ci siamo accorti che uno dei compiti più difficili per i clinici era l’analisi del segnale elettromiografico (EMG). Un dato non strutturato, difficilmente gestibile con un sistema a regole. Grazie alla lungimiranza di Antonina Starita e alla grande esperienza clinica di Riccardo Cioni, responsabile del progetto, si decise di unire le forze delle varie discipline e di creare una rete neurale per lo studio del segnale di EMG e far interagire il modulo simbolico del sistema esperto con il nuovo modulo di rete neurale.

Abbiamo dato vita a “Hynex” uno dei primi sistemi ibridi di AI al mondo. La rete neurale classificava in modo corretto il segnale e il sistema esperto era di supporto ai medici per una corretta diagnosi clinica. Ma era tutto molto complesso: mancavano i dati clinici informatizzati, mancavano le macchine elettromedicali connesse in rete, mancavano gli standard di comunicazione in sanità, mancavano le reti e mancavano macchine potenti in grado di addestrare la rete, che aveva quindi dimensioni piccole. Mi ricordo che per registrare un esame di EMG dovevo andare fisicamente a Siena, memorizzare la registrazione di un esame EMG in 18 floppy, per poi tornare a Pisa e lanciare la rete su questi pochi dati. Le stesse difficoltà venivano incontrate da molti gruppi di ricerca a livello internazionale e infatti per alcuni anni tutto si fermò e sembrava che le promesse dell’AI rimanessero non realizzate.

Conclusioni

Ora con l’arrivo della quarta rivoluzione industriale, grazie a Internet e al Cloud, riusciamo a creare e ad accedere a grandi quantità di dati. Le potenze delle macchine stanno crescendo in modo esponenziale. Ed ecco la “rinascita” dell’AI, che ad oggi è in fase solo iniziale.

Sarebbe però un gravissimo errore continuare a non utilizzare in modo interoperabile e interdisciplinare i sistemi simbolici e connessionisti. Affinché quindi l’AI possa realmente supportare la crescita della conoscenza umana dobbiamo arrivare ai cosiddetti sistemi AI ibridi, in grado di far confluire le diverse anime dell’AI. Dobbiamo unire la potenza di calcolo delle macchine, con la conoscenza codificata di esperti per arrivare ad una intelligenza “aumentata”. E non possiamo non coinvolgere le donne, i loro talenti, le loro conoscenze, in questo nuovo modello.

Si aprono nuovi scenari di ricerca davvero appassionanti, dove far collaborare macchine e umani per unire l’immaginazione e la creatività con la velocità di calcolo e di accesso a dati e conoscenze disponibili. I sistemi cognitivi del futuro dovranno beneficiare di tutte le tecniche dell’AI e soprattutto coinvolgere le conoscenze delle donne, se davvero vorranno essere a servizio dell’intera umanità.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati