ANALISI

AI su Cloud: etica e responsabilità, problemi ancora da risolvere



Indirizzo copiato

Le informazioni, realizzate con un approccio spontaneo, senza intenti di autorevolezza o persistenza nel tempo producono immancabili bias e imprecisioni intorno alla prosa generata dagli LLM o alla verosimiglianza delle immagini generate dai potenti strumenti disponibili

Pubblicato il 12 mag 2025

Silvio Umberto Zanzi

IT Manager Imola Informatica



intelligenza artificiale sfide etiche soluzioni

Attraverso Internet e il concetto di cloud è stato possibile costruire servizi che in qualche modo sono diventati una sorta di memoria collettiva dell’umanità, non intesa in senso storico, questa è la bizzarria, ma come collezione delle memorie episodiche delle singole persone affacciate on-line, prima con l’intermittenza dei momenti in cui si accedeva con computer ancorati a un tavolo ma poi sempre più continui, dopo l’epocale momento in cui si è presentato “[…] un iPod, un telefono e un comunicatore Internet”, “[…] non tre dispositivi separati ma un singolo dispositivo”. Dopo poco tempo tutti sono stati costantemente collegati a Internet, capaci di aggiornare la memoria collettiva on-line e di popolare profili accurati catalogati presso aziende sempre più grandi.

La memoria collettiva è stata quindi usata per vari scopi, tra cui il training di reti neuronali su set di dati immensi. Si è cioè chiesto alle macchine di cominciare a mimare i comportamenti umani, imparando da trilioni di memorie scritte, disegnate, scattate e filmate da persone reali nei decenni di Internet.

Questa scelta ha creato una situazione peculiare in cui frammenti di informazioni create per un consumo di una cerchia ristretta di relazioni, sono diventati oggetti su cui allenare prodotti da proporre all’intera umanità.

La parola “prodotti” è scritta con un plurale molto stretto visto che solo poche realtà sono in grado di avere oggi gli strumenti per training su set di dati così ampi.

Il problema etico dell’AI generativa

Pensavamo che con i computer non sarebbe stato necessario, tanto era buono il progresso. Era solo una illusione. Siamo di nuovo posti di fronte a un problema etico notevole, strisciato fuori molto lentamente e lasciato crescere intorno a tutti noi, come se nulla fosse.

Come affrontare un problema così ampio? Probabilmente si deve iniziare dalla consapevolezza di quello che sono le piattaforme dove si riversano i frammenti della nostra esistenza: sistemi per la profilazione e la vendita di iniziative pubblicitarie. Almeno questo era la fisionomia delle piattaforme prima dell’avvento dei primi strumenti di AI generativa di livello. Da quel momento è risultato evidente che le piattaforme, ma potenzialmente qualsiasi sistema che contenga informazioni liberamente accessibili è diventato anche una base per il training di sistemi di AI.

Bisogna oggi essere consci che ciò che si riversa online viene impiegato oltre la sfera delle proprie relazioni, con un valore superiore al contenuto emozionale di quanto scritto, disegnato o ripreso. Si tratta di una preziosa materia prima necessaria per alimentare nuovi prodotti.

La trasmutazione da contenuto emozionale a carbone per le GPU si trascina una conseguenza non banale. Le informazioni usate, realizzate con un approccio spontaneo, senza intenti di autorevolezza o persistenza nel tempo producono immancabili bias e imprecisioni intorno alla bella prosa generata dagli LLM o alla verosimiglianza delle immagini generate dagli incredibili strumenti disponibili.

Bias latenti

Il bias è un fenomeno di difficile trattamento in quanto le informazioni iniziali contengono inevitabilmente forme di “predisposizione” verso caratteri, aspetti, abitudini, stili, estetiche ben precise. È normale che le persone producano informazioni modellate inconsciamente su aspetti della propria cultura o dell’ambiente in cui vivono. Sarebbe complicato e innaturale fare altrimenti e si rischierebbe di diventare in qualche modo nichilisti a produrre informazioni “indossabili da chiunque”.

Naturalmente anche l’intento di selezionare le informazioni per renderle meno soggette a bias è un processo soggetto a condizionamenti, per quanto vario ed esperto possa essere il team affidato al compito.

C’è inoltre la capacità dei modelli di individuare correlazioni deboli nei dati, collegamenti troppo flebili da essere “visti” dalle persone. Il sistema potrebbe individuare forme di bias latenti e riversarli nella generazione dei contenuti in modi difficili da scorgere.

L’importanza della governance dei dati

Diventa più chiara l’importanza della governace dei dati, con la storicizzazione dei set di training e il mantenimento nel tempo con strumenti di hashing e firma digitale. Vista l’impossibilità di essere “neutrali” o di prevedere tutti gli scenari d’uso futuri, è più realistico adattare il sistema nel tempo, rivalutando i set di training, individuando i limiti durante l’uso e migliorando le informazioni di training a seguito del feedback degli utilizzatori.

Disponendo di una storia completa dei data-set impiegati diventa inoltre possibile richiedere nel tempo audit imparziali da terze parti e migliorare così qualità e diversità delle informazioni.

Per contro una mancanza di storicizzazione può implicare una mancanza di volontà di confronto e miglioramento, fenomeno da temersi per sistemi che si prefiggono di cambiare la fisionomia del mondo del lavoro.

Bias e opportunità

Il bias può tuttavia diventare un’opportunità di business in contesti ritenuti troppo piccoli per le abbondanti necessità alimentari dei grandi player o dove sussiste la miopia di non vedere affatto l’opportunità.

Piccoli operatori, radicati in comunità di nicchia, possono sviluppare soluzioni efficaci per generare output in lingue poco parlate o, al contrario, in lingue diffuse ma con una produzione scritta limitata, insufficiente per modelli concepiti per attingere a vasti corpus testuali in idiomi diffusi come inglese, mandarino, spagnolo, portoghese o hindi.

Esistono progetti molto interessanti per le lingue del Sud Africa come Swahili, Zulu, ecc.

etica responsabilità AI

Il cloud come agente inquinante

Il tema del bias resta particolarmente interessante poiché è l’evidenza che, mentre modelli e algoritmi abbiano ormai raggiunto un livello di qualità molto elevato, i dati rimangano spesso il vero anello debole: disorganizzati, imprecisi e costellati di errori. Non potrebbe essere altrimenti vista la fonte: la nuvola di piattaforme, feed e pagine pubbliche.

Come già scritto, il cloud è la memoria indelebile per una vastità di informazioni occasionali, scritta di getto, spesso sull’onda di emozioni o della banalità di un momento. In buona parte non verificate.

A questo si devono aggiungere le campagne di disobbedienza in cui si alterano le basi dati con errori o inesattezze allo scopo di inficiare la raccolta da parte degli agent di indicizzazione. Vi sono poi anche forme di interferenza culturale in cui si impiegano sistemi per nascondere pattern all’interno di immagini per (tentare di) deragliare la categorizzazione e inquinare il materiale usato per il training.

Allenare i sistemi tramite fonti di pregio

Si potrebbero preferire sistemi che sono stati allenati attraverso fonti di pregio, come testate on-line con una reputazione decennale di verifica delle informazioni e responsabilità. Si tratta di una fonte che “suona meglio” rispetto a conversazioni spontanee di ambienti social o gruppi di discussione. Non vi è nulla di sbagliato in questo, si tratta di espressioni legittime in un contesto di libertà di espressione. Tuttavia, vi sono innumerevoli casi in cui sono necessarie competenze certificate e non solo opinioni.

Sarebbe utile che vi fosse una politica diffusa di “disclosure”, questa volta però da parte dei produttori, una sorta di etichetta nutrizionale nei sistemi generativi per sapere con esattezza quali fonti sono state impiegate per il training, in modo da conoscere con esattezza gli “ingredienti” e poter quindi operare scelte consapevoli su cosa consumare e cosa evitare. Meglio ancora se con un elenco di fonti precise a cui fare riferimento per la verifica della generazione.

Chi è responsabile degli algoritmi?

Un principio cardine del mondo libero è la responsabilità delle proprie azioni e delle proprie parole.

Nell’ambito dell’AI e degli algoritmi generativi, dove sta la responsabilità? Certamente è sbagliato pretendere che incomba unicamente su uno degli attori, sia questo l’utenza, le piattaforme, gli operatori cloud o i produttori di sistemi AI. È altrettanto errato ignorare il problema o non responsabilizzare i player con la giustificazione che non si deve fermare il progresso.

Quando il “progresso” è portato avanti da pochi operatori, con la prospettiva di cambiamenti radicali nella società e nel mondo del lavoro diventa necessario porsi domande e chiedere interventi qualificati da parte del legislatore. Non solo codici utili, come AI Act, ma anche valutazioni di impatto nella società delle iniziative tecnologiche, soprattutto in un momento storico difficile di economia debole, rallentamento industriale, cambiamenti di equilibri geopolitici, pericoli incombenti, costi elevati di energia e materie prime. Qualunque nuova variabile in un simile contesto può generare conseguenze difficili da trattare.

È fondamentale inoltre riflettere sull’impatto delle proprie azioni online e comprendere che, anche se i post personali sono destinati a cerchie ristrette di persone, possono innescare un effetto farfalla quando vengono utilizzati per l’addestramento dei sistemi di intelligenza artificiale. Occorre acquisire consapevolezza del fatto che l’output di modelli generalisti sarà influenzato anche dalle proprie banali comunicazioni di impulso.

Soprattutto i giovani devono essere aiutati. Dovrebbe essere compito della scuola fornire gli strumenti critici necessari affinché le persone possano crescere utilizzando consapevolmente i sistemi basati su AI e cloud, evitando allo stesso tempo l’uso fuorviante di espressioni come “il sistema ha pensato”, “il sistema ha ragionato” o “il sistema ha immaginato”.

Si dovrebbe richiedere infine uno sforzo anche nelle aziende e nelle organizzazioni che usano strumenti AI, promuovendo la divulgazione di policy di disclosure chiare, in modo che le persone siano consce di quanto è stato costruito attraverso un percorso di pensieri e quanto invece è stato interamente generato e poi semplicemente editato.

L’informatizzazione di massa degli anni Ottanta

La fiducia che l’umanità ha riposto nel ciclo attuale è stata giustificata dalla capacità di innovazione che l’informatizzazione di massa ha prodotto a partire dagli anni Ottanta del secolo scorso. Le persone hanno progressivamente acquisito la capacità di memorizzare ampie quantità di informazioni, di elaborare set in continua crescita in modo sempre più rapido e di automatizzare un numero elevato di compiti che per tempi lunghi sono stati svolti in maniera ripetitiva, in forma manuale, con tutte le conseguenze in termini di errori, lentezza e difficoltà a valorizzare le informazioni per produrre valore.

Lo sviluppo dell’informatica ha prodotto benefici immensi e ha comportato un fenomeno di sviluppo iperbolico della tecnica, velocità che poche volte nella storia dell’umanità è stato possibile assistere.

Tutto sommato si è trattato di uno sviluppo con un impatto lento sull’occupazione e sugli stili di vita, dal momento che i computer sono stati fino ad oggi in grado solo di fare cose che gli umani sanno fare, solamente in modo molto più rapido e con la capacità di non dimenticare, per quanto oceaniche siano le basi di dati accumulate.

Dopo i computer, Internet

Non sarebbe stato un fenomeno problematico se non fosse stato per un figlio inatteso: Internet. Nata in ambiti di ricerca, accudita con finanziamenti militari e poi resa libera negli anni Novanta con il sogno di permettere la comunicazione e lo scambio universale, è diventata negli ultimi dieci anni uno strumento mai visto di raccolta di informazioni personali (se pur liberamente fornite dagli interessati) e di profilazioni (se pur chiaramente specificate in lunghe schermate di “termini d’uso”). Papiri legali che si possono mantenere arrotolati semplicemente scorrendo molto velocemente il mouse o il trackpad e facendo click in un quadratino in fondo. Leggere senza leggere, una contorta “evoluzione” secondaria del progresso.

È bastato questo (e un paio di altre idee legali) per orientare il business della Rete dalla tecnologia pura alla profilazione di abitudini e al mantenimento dentro immensi datacenter privati di pensieri, commenti e foto di miliardi di utenti.

Articoli correlati