Google mette in pausa la generazione di immagini di persone tramite intelligenza artificiale tramite il suo modello Gemini, a seguito di polemiche sulla diversità di genere e di etnie. Il colosso tecnologico risponde alle lamentele secondo cui Gemini ha creato immagini di persone in contesti storici inaccurati, ossia immagini irrealistiche. Le capacità di generazione di immagini di Gemini, ora bloccate, sono attualmente limitate al mercato statunitense.
Come funziona la generazione di immagini con Gemini
Gemini genera immagini realistiche basate sulle descrizioni degli utenti, in maniera simile a ChatGPT di OpenAI. Come altri modelli, è addestrato per non rispondere a sollecitazioni pericolose o offensive e per introdurre diversità nei suoi output. Tuttavia, alcuni utenti si sono lamentati del fatto che abbia corretto eccessivamente verso la generazione di immagini di donne e persone di colore, tanto da essere rappresentate in modo inaccurato in contesti storici, come ad esempio nelle raffigurazioni dei re vichinghi o dei soldati tedeschi della seconda guerra mondiale.
“Stiamo lavorando per migliorare immediatamente questo tipo di rappresentazioni”, ha dichiarato Google. “La generazione d’immagini di Gemini produce una vasta gamma di persone. E generalmente è una cosa positiva perché viene utilizzato da persone in tutto il mondo. Ma qui sta mancando l’obiettivo”.
Google ha aggiunto che ha “sospeso la generazione d’immagini delle persone e rilascerà presto una versione migliorata”.
Cosa è successo a Gemini
Intorno al 20 febbraio, un utente ha pubblicato su X (‘ex Twitter), una immagine di come Gemini aveva risposto alla richiesta di “generare un’immagine di un soldato tedesco del 1943“. Gemini aveva proposto quattro immagini di soldati: uno di carnagione bianca, uno nera e due erano donne asiatiche. Rappresentazioni chiaramente e totalmente assurde.
Le AI sarebbero troppo “woke” e questa sarebbe la prova, si legge in molte e animate discussioni sui social.
In realtà, quello che è accaduto con le generazione di immagini da parte di Google Gemini pone il dilemma se l’AI generativa debba rispondere a criteri di attinenza con la realtà, con i contesti storici e demografici, oppure possa essere uno strumento la cui fantasia non ha limiti. Resta in ogni caso il discrimine fra immagini generate sulla base di precisi prompt degli utenti e immagini generate autonomamente dal sistema. Ed è su quest’ultime che si appuntano le critiche degli utenti.
Le “allucinazioni” degli LLM
Una caratteristica fondamentale dei modelli generativi di intelligenza artificiale è la loro tendenza a “allucinare”, o a inventare nomi, date e numeri. Questo accade perché il software è progettato per individuare schemi e indovinare la migliore opzione successiva in una sequenza. A causa di questa natura predittiva, le immagini e i testi generati da questi modelli possono essere inaccurati o addirittura assurdi, un problema che aziende di intelligenza artificiale come OpenAI e Google stanno cercando di minimizzare.
In uno studio recente dell’Università di Stanford sulle risposte generate da tre modelli di intelligenza artificiale a 200.000 richieste legali, i ricercatori hanno scoperto che le domande su casi casuali dei tribunali federali hanno portato a errori diffusi. ChatGPT-3.5 di OpenAI ha fornito risposte inventate il 69% delle volte, mentre il modello Llama 2 di Meta ha raggiunto l’88%. Per ridurre gli errori e i pregiudizi nei modelli generativi, le aziende utilizzano un processo chiamato fine-tuning. Questo spesso si basa su revisori umani che segnalano se ritengono che le sollecitazioni e le risposte dell’AI siano inaccurate o offensive.
Google: modello “troppo zelante” nel tenere conto della diversità
Google ha dichiarato che il suo obiettivo non era specificare una ripartizione demografica ideale delle immagini, ma piuttosto massimizzare la diversità, che sostiene porti a output di qualità superiore per una vasta gamma di sollecitazioni. Tuttavia, ha aggiunto che a volte il modello potrebbe essere troppo zelante nel tenere conto della diversità, risultando in un’eccessiva correzione.
“Siamo consapevoli che Gemini offra inesattezze in alcune rappresentazioni storiche della generazione di immagini – ha affermato Google in una nota pubblicata su X – Siamo al lavoro per risolvere il problema» aveva affermato l’azienda in una prima comunicazione. “I contesti storici hanno più sfumature e ci adatteremo ulteriormente per conformarci” ha dichiarato Jack Krawczyk, Senior Director of Product di Gemini.
LLM e pregiudizi politici
Una ricerca dell’Università di Washington, della Carnegie Mellon University e della Xi’an Jiaotong University ad agosto ha scoperto che i modelli di intelligenza artificiale, tra cui GPT-4 di OpenAI e LLaMA di Meta, hanno pregiudizi politici diversi a seconda del modo in cui sono stati sviluppati. Ad esempio, lo studio ha rilevato che i prodotti di OpenAI tendevano a essere orientati a sinistra, mentre quelli di LLaMA di Meta erano più vicini a una posizione conservatrice.
Rob Leathern, che ha lavorato su prodotti legati alla privacy e alla sicurezza presso Google fino all’anno scorso, ha scritto su X di Gemini: “Non dovrebbe assolutamente presumere che determinate query generiche siano un particolare genere o razza e questo mi fa piacere”. Poi ha aggiunto: “Ma quando aggiunge esplicitamente [un genere o una razza] per query più specifiche appare inaccurato”.