approfondimento

AIGen: come sono fatti i dataset delle immagini per l’addestramento



Indirizzo copiato

Ecco alcuni esempi reali che dimostrano che sfatano l’idea che i dataset siano costruiti con materiale preso senza autorizzazione. Da Open Images V7 a Multimedia Commons, a Layon e COCO

Pubblicato il 2 lug 2024



word-image-26209-1

AI generativa e utilizzo delle immagini protette da copyright. Ce ne siamo già occupati in questo articolo. L’obiettivo è capire quanto c’è di vero, o di non vero, nell’accusa spesso rivolta all’uso di materiali per addestrare le AI, ovvero che siano stati ottenuti con mezzi poco leciti.

Approfondiamo il tema dei dataset, ossia i “contenitori” delle immagini utilizzate per addestrare le AI. Uso il termine “contenitori” anche se, sebbene possa suggerire che al loro interno ci siano effettivamente le immagini, questo non è sempre il caso.

Vediamo alcuni casi concreti. I dataset contengono immagini, ma con una caratteristica particolare: queste immagini devono essere descritte, ossia devono avere informazioni che spieghino il loro contenuto. Generalmente, queste descrizioni sono testuali, anche se esistono metodi basati su descrizioni vocali.

I dataset che contengono immagini

Ad esempio, nell’immagine sotto sono stati utilizzati sette metodi diversi, riassunti dalle etichette visibili nella parte alta. In questa attività, l’apporto umano è fondamentale: infatti, i metodi utilizzati possono essere applicati solo da persone o da AI che vengono supervisionate da esseri umani. Questo avviene quando le macchine sono state addestrate abbastanza da iniziare a riconoscere i vari elementi autonomamente.

Passiamo ora a esaminare i dataset.

Open Images Dataset V7

Il dataset Open Images V7 è stato creato da Google utilizzando 9 milioni di immagini caricate su Flickr con una delle sette licenze Creative Commons disponibili, più la possibilità di rilascio in dominio pubblico. L’immagine usata in precedenza per illustrare i diversi metodi di descrizione è stata presa proprio da questo dataset. Open Images Dataset V7 è rilasciato a sua volta con una licenza Creative Commons che ne permette l’uso anche commerciale; tuttavia, è sempre consigliabile controllare attentamente le licenze specifiche. Il sito ufficiale è questo.

Un aspetto molto interessante e forse poco considerato è che in realtà questo dataset non contiene le immagini, ma solo i link alle immagini originali pubblicate su Flickr. Su questi link sono posizionati, come se fossero dei layer sovrapposti, i metadati aggiunti in fase di analisi che sono gli elementi delle descrizioni. Questo diventa evidente quando, per qualsiasi motivo, l’immagine originale viene cancellata.

In tal caso, nella visualizzazione viene sostituita dalla scritta “This image is no longer available in Flickr“, mentre gli elementi delle descrizioni vengono mantenuti (ma bisognerebbe dire eventualmente di scrollare perché a ogni caricamento cambia quello che viene fatto vedere per cui non sempre si vedono subito i “buchi”).

L’uso dei link alle immagini originali è un metodo impiegato anche da altri dataset.

Multimedia Commons

Il dataset Multimedia Commons, creato da Yahoo, contiene oltre 99 milioni di immagini e quasi un milione di video pubblicati su Flickr con licenze Creative Commons. Anche questo dataset non contiene le immagini vere e proprie. Come riportato nella descrizione ufficiale: “Questo dataset include solo i metadati delle foto e dei video (ad esempio, i fotografi che li hanno catturati, le fotocamere utilizzate, le località in cui sono stati scattati, se disponibili, ecc.) e non include il loro contenuto effettivo (cioè i file di immagini e video)”.

Questo dataset può essere scaricato, ma è sempre necessario controllare i termini della licenza. Il sito ufficiale è questo.

Laion 5B

Il dataset più grande finora disponibile è Laion 5B, dove “5B” sta per 5 miliardi. Infatti, contiene circa 5 miliardi e 850 milioni di immagini. Anche in questo caso, il termine “contiene” dovrebbe essere scritto tra virgolette, poiché non ospita realmente quel numero mostruoso di immagini, ma i link alle immagini originali. Queste sono state “raccolte” dalla rete, come specificato nelle FAQ del progetto:

LAION datasets are simply indexes to the internet, i.e. lists of URLs to the original images together with the ALT texts found linked to those images. While we downloaded and calculated CLIP embeddings of the pictures to compute similarity scores between pictures and texts, we subsequently discarded all the photos. Any researcher using the datasets must reconstruct the images data by downloading the subset they are interested in.

Il link al sito del progetto è questo.

Anche questo dataset è liberamente scaricabile e utilizzabile sotto una licenza Creative Commons. Va notato che non si scaricano le immagini, ma i metadati, cioè le note aggiunte per le descrizioni più i link. La stragrande maggioranza di queste immagini non ha nulla di creativo. Chi ha scattato queste foto spesso non ha conoscenza della composizione fotografica e degli altri concetti necessari per creare una foto artistica. La realtà è che gran parte delle immagini trovate in rete non hanno intenti artistici, ma sono scattate per catturare un momento, come ricordo o semplicemente per dire “io esisto”. Le motivazioni per pubblicare foto online sono molteplici, ma la condivisione artistica è tra le meno frequenti.

Un altro aspetto interessante di questo dataset è l’origine dei link utilizzati. Laion non ha eseguito la scansione della rete, ma si è avvalso del progetto Common Crawl. Come specifica Laion:

Despite the ‘Crawling at Home’ project name, we are not crawling websites to create the datasets. Common Crawl did the crawling part in the past, and they did respect the robots.txt instruction. We only analyze their data and then look at the pictures to assess their value concerning the provided alt text.

Common Crawl utilizza la tecnica dello scraping, rispettando però le indicazioni dei gestori dei siti tramite i file nofollow e robots.txt. Il sito ufficiale di Common Crawl è questo. Common Crawl è stato utilizzato anche da OpenAI per addestrare GPT 3. Per le versioni successive del suo chatbot, OpenAI ha sviluppato GPTBot, il suo web crawler.

La possibilità di verificare se il modello contiene immagini proprie

Un’iniziativa interessante, relativa a Laion 5B, è la possibilità di verificare se contiene immagini proprie. Si tratta di un service online che ovviamente usa la caratteristica di questo dataset di essere aperto per “entrare e guardare”. Ovviamente la ricerca è possibile farla solo su keyword associate alle immagini, inserite nella fase di costruzione del dataset usando le descrizioni e le keyword inserite da chi ha pubblicato in origine le foto, che non è detto che sia l’autore.

Nel mio caso, ad esempio, le mie foto che ho trovato fanno parte del periodo in cui sono stato il fotografo di un’importante orchestra di Milano, si tratta di foto inviate con i comunicati stampa e riprese da siti specializzati, probabilmente ce ne sono altre pubblicate senza che il mio nome associato alle immagini.

COCO (Common Objects in Context)

L’aspetto citato in precedenza, ovvero che in rete esistano soprattutto foto di vita quotidiana, è molto utile per addestrare le intelligenze artificiali. Questo principio è utilizzato per creare dataset generici, come COCO, che utilizza le immagini di Flickr per costruire un dataset di immagini che mostrano diversi elementi in contesti reali. Il link al sito di COCO è questo.

La tecnica di analisi utilizzata è chiamata segmentation: gli elementi vengono evidenziati con forme geometriche che seguono approssimativamente il loro profilo. Anche questo dataset è rilasciato con una licenza Creative Commons.

Nello screenshot sotto, un esempio di immagine analizzata con gli elementi trovati rappresentati come icone sopra, il tasto URL permette di vedere il link all’immagine originale.

Gli esempi visti finora non devono far pensare che tutti i dataset siano costruiti con la tecnica dei link alle immagini originali. Esistono anche dataset, forse la maggioranza, che contengono effettivamente le immagini, ma ciò avviene soprattutto quando il numero di immagini non è elevato.

The Cityscape Dataset

Il Cityscapes Dataset è stato creato da Daimler in collaborazione con due università tedesche, ed è finalizzato all’addestramento delle AI per la guida autonoma. A differenza dei dataset precedenti, questo può essere scaricato e utilizzato solo per scopi accademici. Il sito ufficiale è questo.

Il dataset è stato creato inviando veicoli equipaggiati con telecamere attive attraverso le città tedesche. Dai video registrati sono stati estratti frame ogni 20 secondi, con un totale di 25mila immagini, di cui 5mila analizzate completamente e 20mila parzialmente. Anche in questo caso, l’analisi si basa sulla tecnica della segmentation. Anche se poco visibile, si può riconoscere in basso la stella Mercedes, simbolo dell’azienda parte del gruppo Daimler.

The Oxford-IIIT Pet database

Un esempio di dataset più piccolo, ma altamente specializzato, è quello preparato dal Visual Geometry Group del Department of Engineering Science dell’Università di Oxford. Questo dataset raccoglie 7.249 immagini di cani e gatti ed è rilasciato con una licenza Creative Commons. È possibile visionarlo qui.

Altri esempi di dataset

Esistono moltissimi altri esempi di dataset, poiché ne vengono creati continuamente. Un esempio è il sito HuggingFace.co, uno dei principali repository nel campo delle AI. Una delle sue sezioni principali è dedicata proprio ai dataset, e attualmente ne contiene oltre 120mila, suddivisi tra varie categorie. In quella text-to-image se ne possono trovare oltre 3.500.

Esistono anche dataset di cui conosciamo il metodo di istruzione, ma non chi li abbia usati o cosa contengano. Un esempio è quello usato per addestrare DALL-E, che ha utilizzato immagini concesse in licenza da ShutterStock, uno dei principali siti di stock. Sappiamo di questo accordo grazie a un comunicato stampa di ShutterStock, che riporta: The data we licensed from Shutterstock was critical to the training of DALL-E said Sam Altman, OpenAI’s CEO.

Il link al comunicato è questo. ShutterStock evidenzia la versatilità della sua AI, in particolare la funzionalità di assistente alla progettazione. Il link è questo.

Getty Images

Non è l’unico dataset di cui conosciamo l’esistenza ma non l’uso. Ne esistono altri, ancora più misteriosi, di cui siamo a conoscenza grazie a comunicati stampa. Ad esempio, Getty Images a gennaio 2023 ha annunciato una causa contro Stability e nello stesso documento ha dichiarato: Getty Images believes artificial intelligence has the potential to stimulate creative endeavors. Accordingly, Getty Images provided licenses to leading technology innovators for purposes related to training artificial intelligence systems in a manner that respects personal and intellectual property rights. Il link al documento è questo.

Di recente, Getty ha reso disponibile sulla sua piattaforma la propria AI generativa di immagini, Picasso powered by NVIDIA. Getty sottolinea quanto sia sicuro usare la loro soluzione per quanto riguarda la gestione dei diritti, poiché è allenata con immagini gestite dalla stessa Getty. La pagina è questa.

Adobe

Un altro gestore di immagini, Adobe, offre il servizio Adobe Stock. Anche Adobe ha lanciato una AI generativa di immagini, Firefly, e ha integrato funzioni AI in Photoshop. Il link per Firefly è questo.

Meta

E Meta, che è il più grande “gestore di immagini”? Ha creato EMU, sia nella versione per immagini che per video. Di seguito lo screenshot della pagina dove è possibile provare questo tool. Il link è questo, anche se non è attivo in Italia. Però, è possibile da tempo scaricare i LLM Lama, rilasciati in open source per uso in locale.

AI che generano dati sintetici

Una novità degli ultimi tempi, nel mondo delle AI sono arrivate quelle capaci di generare dati sintetici, utili sia per creare dataset di training di altre AI sia per generare dati per simulazioni sociali ed economiche/demografiche.

Un’applicazione di questi tool arriva da Stability e dal rilascio del suo ultimo modello, SD3. Nella pagina specifica su Hugging Face (è questa) nel paragrafo sul dataset utilizzato per il training si può leggere:

We used synthetic data and filtered publicly available data to train our models. The model was pre-trained on 1 billion images. The fine-tuning data includes 30M high-quality aesthetic images focused on specific visual content and style, as well as 3M preference data images.

Questo da un lato permette di svincolarsi dall’uso di immagini prese dalla rete, che anche se ottenute legalmente come negli esempi visti sopra potenzialmente possono portare problemi di vario tipo, dall’altro introduce un nuovo livello di complessità in relazione al controllo necessario di questi dati.

Conclusioni

I casi delle AI addestrate con immagini di siti/social come ShutterStock, Getty Images, Adobe e Meta sono possibili perché, quando ci si iscrive ai vari servizi, si concedono licenze d’uso che permettono loro di fare ciò che desiderano con le immagini caricate.

Ovviamente, parlavo ironicamente di dataset misteriosi. Attualmente, esistono moltissimi dataset pubblici, ma anche molti dataset privati, probabilmente in un numero maggiore. È infatti possibile addestrare una AI con propri dati riservati, immaginando un’azienda che istruisce la propria con documenti interni, utilizzando i propri sistemi o affidandosi a un servizio che garantisce la protezione dei documenti.

Lo scopo di questa panoramica è di mostrare con esempi reali che l’idea che i dataset siano costruiti con materiale preso senza autorizzazione è quanto meno non corretta. Al limite lo si può dire per Laion, ma con la nota tecnica riportata che quel dataset non contiene immagini ma link alle immagini originali. Al momento non risultano azioni legali contro Laion per bloccarne l’attività.

Articoli correlati

Articolo 1 di 4