AI generativa

Generazione di immagini: quello che le AI non sanno fare



Indirizzo copiato

I modelli sono stati addestrati su un enorme volume di dati visivi, miliardi di immagini, per cui sarebbe naturale aspettarsi che le AI possiedano una conoscenza pressoché universale e la capacità di rappresentare ogni oggetto esistente con precisione. Ma quando richiediamo a questi sistemi di creare immagini di oggetti specifici, i risultati spesso si discostano significativamente dalle nostre aspettative

Pubblicato il 16 apr 2025



Generazione immagini

L’utilizzo delle intelligenze artificiali per la generazione di immagini sta diventando una pratica sempre più diffusa nel mondo professionale. Tuttavia, quando richiediamo a questi sistemi di creare immagini di oggetti specifici, i risultati spesso si discostano significativamente dalle nostre aspettative. Questo aspetto delle AI generative risulta particolarmente interessante se consideriamo che i modelli sono stati addestrati su un volume impressionante di dati visivi, anche miliardi di immagini. Di fronte a questi numeri, sarebbe naturale aspettarsi che le AI possiedano una conoscenza pressoché universale, o quantomeno la capacità di rappresentare ogni oggetto esistente con precisione.

Per analizzare questo fenomeno è necessario iniziare con una precisazione tecnica: i modelli di cui trattiamo sono i foundation model, sistemi base caratterizzati da un approccio generalista e addestrati utilizzando i dataset più estesi disponibili. Per chiarezza terminologica, con dataset intendiamo le raccolte di immagini utilizzate durante la fase di addestramento dei modelli.

Le AI e la complessità della realtà

La realtà che ci troviamo a dover rappresentare attraverso le AI presenta una complessità sorprendente, che si manifesta nel numero straordinariamente elevato di oggetti esistenti. Per rendersene conto basta fare una prova: guardandosi attorno mentre si legge questo articolo e provando a elencare gli oggetti visibili, anche solo come categorie (per capirsi, un’auto o 10 auto la categoria è sempre e solo “auto”) se ne contano facilmente decine e decine. Bisogna poi considerare quante varianti possono esistere all’interno di una singola categoria. Riprendendo l’esempio delle auto quanti tipi ce ne sono, e quanti modelli? Non solo: poiché le immagini sono bidimensionali ma il mondo è tridimensionale, una singola foto o anche poche non bastano, perché ogni oggetto ha molteplici lati e ogni punto di vista necessita di essere documentato.

Non è possibile quantificare con precisione quante foto servirebbero per insegnare a una AI come sono fatte le auto, ma sappiamo che occorrerebbero moltissime immagini per mostrare ogni dettaglio da ogni angolazione possibile.

Le metodologie più utilizzare per l’apprendimento delle immagini

L’applicazione del ragionamento precedente all’intero universo degli oggetti materiali evidenzia come la rappresentazione completa del mondo richiederebbe un numero di immagini davvero considerevole. Nel termine “immagini” includiamo anche le rappresentazioni non fotografiche presenti nei dataset utilizzati per l’addestramento delle AI. La situazione presenta ulteriori livelli di complessità poiché non è sufficiente disporre di immagini qualsiasi: queste devono essere correttamente descritte attraverso un sistema che permetta l’identificazione precisa degli elementi che le compongono.

Questo sistema di catalogazione risulta determinante per ottimizzare il processo di apprendimento dell’intelligenza artificiale, consentendole di identificare con maggiore accuratezza le strutture ricorrenti. Una delle metodologie più utilizzate prevede l’associazione di etichette testuali, tecnicamente denominate label, a specifiche aree dell’immagine delimitate da rettangoli che identificano gli elementi da evidenziare.

Da Open Images Dataset V7

Il processo di apprendimento delle immagini

Il processo di apprendimento si sviluppa secondo uno schema preciso: l’AI, attraverso l’analisi di numerose immagini contenenti microfoni ed etichettate con il termine “microfono”, apprende a riconoscere questo oggetto attraverso l’identificazione delle forme ricorrenti. Attraverso la descrizione associata, il sistema apprende che quella particolare configurazione formale corrisponde al termine microfono, stabilendo così una correlazione tra denominazione verbale e oggetto fisico. È importante sottolineare che ci riferiamo a sistemi di AI generative di immagini basati sulla tecnologia text-to-image, che producono rappresentazioni visive partendo da input testuali.

Per questa ragione l’intelligenza artificiale necessita di apprendere sia il riconoscimento delle forme degli oggetti sia la loro corretta denominazione. Questo processo costituisce anche la base del vocabolario tecnico che l’AI acquisisce durante l’addestramento.

La descrizione accurata delle immagini richiede particolare attenzione anche per gli oggetti apparentemente più comuni. L’interpretazione di un oggetto può variare significativamente in base al contesto culturale di riferimento. Un esempio concreto riguarda gli spaghetti: mentre per un professionista italiano l’identificazione risulta immediata, un operatore abituato alla cucina orientale potrebbe interpretarli diversamente.

Questa non è una supposizione teorica: durante la fase di preparazione delle descrizioni fotografiche per le AI, diversi operatori hanno classificato un piatto di spaghetti come pietanze tipiche della cucina orientale.

Generazione immagini

Da Open Images Dataset V7

La dimensione storica degli oggetti

Lo stesso fenomeno si verifica in direzione opposta: per un professionista italiano risulta complesso identificare correttamente le diverse tipologie di pietanze della cucina cinese.

La complessità della categorizzazione aumenta esponenzialmente quando si considerano oggetti di nicchia, utilizzati in ambiti tecnologici o settori specialistici. Consideriamo ad esempio i componenti di un’automobile: immaginando il veicolo completamente smontato fino all’ultimo elemento, quanti professionisti sarebbero in grado di identificare correttamente ogni singolo componente? O ancora, pensiamo alla quantità di elementi diversi necessari per la costruzione di un edificio.

La dimensione storica aggiunge un ulteriore livello di complessità al sistema di classificazione. La storia dell’umanità, pur rappresentando un periodo relativamente breve se confrontato con la storia della Terra o dell’Universo, ha prodotto una quantità impressionante di manufatti. Nel corso dei secoli, abbiamo creato, utilizzato e successivamente abbandonato innumerevoli tipologie di oggetti, molti dei quali sono oggi noti esclusivamente agli storici di settore. Le differenze tecniche tra un archibugio e una spingarda, per citare un esempio specifico, sono attualmente conosciute solo da un ristretto gruppo di specialisti nel campo delle armi storiche.

Il mondo naturale

Questo ambito di complessità si estende ben oltre la storia umana, abbracciando l’intero mondo naturale. Il caso degli insetti rappresenta un esempio particolarmente significativo: si stima l’esistenza di circa un milione di specie attuali, presenti sul nostro pianeta da 300 milioni di anni. La vastità non si limita al mondo terrestre: superando lo strato atmosferico che circonda il nostro pianeta, ci troviamo di fronte all’immensità dell’Universo, con la sua infinita varietà di corpi celesti e fenomeni astronomici.

Considerando tutti questi elementi in una prospettiva sistemica, risulta comprensibile perché attualmente non esista un’intelligenza artificiale in grado di generare immagini accurate di qualsiasi oggetto o entità. Gli elementi di nicchia presentano una duplice problematica: da un lato, esiste una limitata disponibilità di immagini che li rappresentano; dall’altro, il numero di professionisti in grado di fornire descrizioni tecnicamente accurate risulta estremamente ridotto.

I dataset

Il dataset più significativo attualmente disponibile, LAION 5B, contiene 5 miliardi e mezzo di immagini che spaziano dalle fotografie professionali alle illustrazioni digitali. Nonostante la dimensione considerevole, nemmeno un archivio di questa portata riesce a rappresentare adeguatamente l’intera complessità del mondo reale.

La quantità di immagini, per quanto numericamente rilevante, non garantisce una copertura sufficiente per ogni tipologia di oggetto. La questione della descrizione dei contenuti mantiene un ruolo centrale nel processo: disporre di 10mila immagini di un oggetto specifico risulta poco efficace se questo non viene identificato con una denominazione precisa e coerente.

In assenza di descrizioni appropriate, l’intelligenza artificiale potrà riconoscere una forma ricorrente ma non sarà in grado di associarla correttamente al termine tecnico nella richiesta testuale.

Nel contesto della costruzione dei dataset, LAION adotta un approccio basato sulla raccolta di immagini dalla rete, mentre altri archivi come COCO (Common Objects In Context) o Open Images Dataset V7 di Google si concentrano su immagini distribuite con licenze Creative Commons. Il panorama include anche dataset proprietari, sviluppati attraverso accordi specifici con gestori di importanti archivi di immagini, dei quali spesso non sono pubblicamente disponibili informazioni dettagliate sui contenuti o sull’esistenza stessa.

Per un’analisi approfondita delle metodologie di costruzione dei dataset e delle relative implicazioni legali, sono disponibili due articoli di riferimento, considerando che alcuni aspetti potrebbero essere stati aggiornati nel tempo. Questi documenti esaminano i principali archivi di immagini, analizzando i termini di servizio e affrontando la questione dell’utilizzo delle immagini per l’addestramento delle AI.

Per i professionisti che non hanno avuto modo di consultare questi articoli, è importante sottolineare che i dataset più estesi non contengono immagini create appositamente per l’addestramento delle AI. Questi archivi hanno invece utilizzato, attraverso diverse modalità, immagini preesistenti provenienti da varie piattaforme digitali, inclusi servizi di stock photography come Shutterstock e Getty Images, piattaforme di condivisione come Flickr e social media.

Gli utenti di queste piattaforme caricano i contenuti seguendo logiche individuali, senza considerare un potenziale utilizzo per l’addestramento dei sistemi di AI. Le motivazioni alla base della pubblicazione sono principalmente di natura estetica, finalizzate a dimostrare competenze fotografiche, o sociale, per condividere esperienze quotidiane. Questa dinamica determina una prevalenza di soggetti comuni o connessi alle tendenze dei social media.

Oltre alle descrizioni integrate nelle immagini precedentemente discusse, esistono anche metadati esterni come didascalie, titoli assegnati dall’autore durante il caricamento, informazioni sull’autore e altri elementi descrittivi.

Generazione immagini
Da Open Images Dataset V7

Questi dati vengono interpretati come riferimenti all’immagine nella sua interezza, ma se non contengono informazioni tecnicamente rilevanti risultano inefficaci per il processo di addestramento. Un esempio pratico: una fotografia di un piatto di spaghetti accompagnata dal titolo generico “la mia cena” rappresenta una descrizione priva di valore informativo specifico. Di conseguenza, questa immagine non contribuisce efficacemente a sviluppare nel sistema AI una comprensione accurata del concetto “piatto di spaghetti” e delle sue varianti.

La difficoltà di rappresentare gli oggetti di natura tecnologica

Considerando l’insieme di questi fattori, risulta comprensibile che un’intelligenza artificiale incontri difficoltà significative nel rappresentare oggetti per i quali esistono limitate immagini di riferimento o descrizioni tecniche inadeguate. Non sorprende, pertanto, che gli oggetti di natura tecnologica risultino tra quelli più frequentemente rappresentati con imprecisioni.

Un caso di studio particolarmente rappresentativo riguarda il pignone elicoidale, un componente ampiamente utilizzato in ambito meccanico industriale. Le immagini generate dai sistemi più avanzati, come Image Creator di Microsoft e Midjourney, presentano discrepanze evidenti rispetto alla configurazione reale di questo componente. Questa limitazione assume particolare rilevanza nel contesto della comunicazione tecnica e della documentazione industriale.

Generazione immagini
Paolo Dalprato

Generazione immagini
Image Creator di Microsoft

Generazione immagini
Midjourney

Le varianti specifiche di oggetti

Anche varianti specifiche di oggetti relativamente comuni possono presentare criticità significative per i sistemi di AI. Le bisarche, veicoli specializzati a due livelli per il trasporto di automobili, rappresentano un esempio illuminante: le rappresentazioni generate da Midjourney mostrano differenze strutturali rilevanti rispetto alle configurazioni reali, come evidenziato dal confronto con un modello di riferimento del 1959.

Generazione immagini
da wikipedia, pubblico dominio


Midjourney

Conclusioni

La situazione attuale delle AI generative riflette un equilibrio complesso tra potenzialità e limitazioni. Il mondo professionale e industriale presenta una complessità troppo vasta perché i sistemi AI attuali possano disporre di informazioni sufficienti per generare rappresentazioni accurate di ogni oggetto tecnico, nonostante dimostrino capacità adeguate nella gestione della maggior parte delle richieste standard.

Tuttavia, l’impossibilità dei foundation model di rappresentare con precisione elementi tecnici specifici, come il citato pignone elicoidale, non preclude la possibilità di ottenere risultati accurati attraverso approcci alternativi nel campo dell’intelligenza artificiale. Una soluzione tecnicamente valida consiste nell’implementazione di modelli specializzati, addestrati su dataset settoriali specifici. Questo approccio, particolarmente rilevante per le aziende che necessitano di rappresentazioni tecniche precise, richiede investimenti mirati ma garantisce risultati significativamente più accurati.

Esiste inoltre una metodologia alternativa che sta guadagnando interesse nel settore: l’integrazione dell’oggetto fotografato all’interno di una scena generata dall’intelligenza artificiale. Questa tecnica si distingue dal fotomontaggio tradizionale realizzato con strumenti come Photoshop, configurandosi invece come un processo di inserimento rigenerativo che adatta l’oggetto in modo organico e coerente con l’ambiente circostante. Questa soluzione offre interessanti prospettive per le aziende che necessitano di mantenere l’accuratezza tecnica dei propri prodotti pur beneficiando della flessibilità creativa dei sistemi AI.

Articoli correlati