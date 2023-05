Con l’affermarsi degli strumenti di intelligenza artificiale (AI) ‘generativa’, ovvero in grado di creare contenuti in base alle nostre istruzioni, tecnicamente dette prompt, stiamo assistendo in particolare a una sempre maggiore diffusione di immagini generate appunto da algoritmi di questo tipo e basate sui più noti ‘modelli’ di AI, fra cui DALL-E 2, DeepAI, Stable Diffusion, ma anche su modelli proprietari, ovvero sviluppati direttamente dall’azienda che offre il servizio di generazione immagini.

Quando parliamo di ‘modello’ ci riferiamo a un algoritmo, in questo caso focalizzato sulla generazione di contenuti grafici, che è stato addestrato utilizzando contenuti dello stesso tipo, in modo che li analizzasse e ne ricavasse delle ‘regole’ con cui dare vita a immagini del tutto originali, ma con la possibilità di replicare in esse stili ed effetti desunti da quelle utilizzate nell’addestramento.

L’introduzione di strumenti di questo tipo anche in ambienti popolari Canva o Bing di Microsoft lascia intuire il ruolo determinante che avranno da ora in poi nella generazione di contenuti digitali. Ecco una panoramica dei tool attualmente al momento più utilizzati.

L’importanza delle immagini generate con l’intelligenza artificiale

Le applicazioni associate alla generazione di immagini per mezzo dell’AI sono diverse, e spaziano dall’arte alla medicina, dalla pubblicità alla sicurezza. Dobbiamo, tuttavia, porci delle domande importanti riguardo al loro utilizzo, per esempio quali sono i vantaggi e i rischi associati a queste immagini? E come possiamo distinguere le immagini reali da quelle create con l’AI?

I vantaggi delle immagini generate con l’AI

Un vantaggio delle immagini prodotte tramite AI, infatti, è la capacità di creare scenari o situazioni che sarebbero altrimenti difficili o impossibili da riprodurre con strumenti tradizionali, anche digitali. Per esempio, è possibile generare volti di persone inesistenti, paesaggi fantastici, opere d’arte originali o simulazioni realistiche.

Un ulteriore beneficio può derivare dal loro utilizzo volto a migliorare la qualità o la quantità di dati disponibili per scopi scientifici o educativi: immagini mediche per la formazione del personale sanitario nel riconoscimento di malattie o anomalie, immagini di animali o piante per lo studio della biodiversità, e così via. Il limite, con l’evolversi di questi strumenti, è solo l’immaginazione umana, che resta sempre alla base del processo generativo.

I pericoli della generazione di immagini con l’AI

Occorre anche tener conto del fatto che le immagini create mediante AI comportano rischi e sfide etiche e legali. Un rischio sempre più evidenziato è associato al loro utilizzo fraudolento, in quanto in alcuni casi sono state già usate per ingannare, manipolare o diffamare individui. Non è difficile, infatti, generare immagini false di eventi storici, politici o personali, oppure creare immagini compromettenti o offensive di persone reali, situazioni cui abbiamo potuto già assistere. Un altro pericolo è che queste immagini possano violare la proprietà intellettuale, nel caso in cui venissero generati contenuti che infrangono il diritto d’autore o un brand aziendale.

L’importanza di saper riconoscere immagini generate dall’AI

Alla luce di quanto appena detto, è chiaro quanto sia importante essere consapevoli dell’esistenza e delle caratteristiche delle immagini create con l’AI, imparando a riconoscerle e valutarle criticamente. Quest’ultima capacità, almeno fino a quando non sarà la stessa AI a fornire i mezzi automatici per discriminare le immagini fittizie, può essere sviluppata imparando a notare la presenza di artefatti (distorsioni o incongruenze nelle immagini, come sfocature, bordi irregolari, colori innaturali o dettagli incoerenti), la mancanza di un contesto, di una fonte o di un autore delle immagini (come la data, il luogo, il nome o la firma) e più in generale la difficoltà nel verificare la loro origine o autenticità, mancando prove, testimonianze o documentazione a riguardo.

Guida agli strumenti di AI per la generazione di immagini

In questa rassegna presentiamo alcuni fra gli strumenti di AI generativa per le immagini, più popolari in questo momento, in modo da offrire la possibilità di decidere quale si presta maggiormente alle nostre esigenze.

Tutti gli strumenti esaminati offrono la possibilità di provarne le caratteristiche gratuitamente, di solito in base alla quantità e/o qualità di immagini generate, ma naturalmente quelli più potenti richiedono, successivamente, delle forme di abbonamento o l’acquisto di ‘crediti’ utilizzabili per la generazione delle immagini successive.

Gli abbonamenti sono solitamente disponibili sia con pagamento mensile sia, con un risparmio sulla quota, con abbonamento annuale. Il motivo dei servizi a pagamento, quando presenti, è legato principalmente alle risorse di elaborazione impiegate per il loro funzionamento, che prevedono l’uso di hardware e servizi di cloud particolarmente costosi per l’azienda.

DALL-E 2

Dall-E 2, come suggerisce il numero accanto al nome, è la seconda versione del modello AI generativo di OpenAI dedicato alla grafica. Quest’azienda, ormai nota per il chatbot di generazione del testo ChatGPT, basato sui modelli GPT-3 e GPT-4 (Dall-E è stato sviluppato proprio a partire dal primo, aggiungendo anche le immagini ai testi). Come già accade per ChatGPT, anche per provare Dall-E 2 bisogna registrarsi (gratuitamente) sul sito di OpenAI, dopodiché ci saranno assegnati dei ‘crediti’ che potremo utilizzare per generare le prime immagini, ottenute dalla semplice introduzione del prompt ‘descrittivo’ nella finestra di chat del sito (le istruzioni sono accettate anche in italiano).

È possibile, inoltre, caricare una nostra immagine per modificarla o chiedere che siano prodotte delle varianti.

Ognuno dei 15 crediti gratuiti iniziali viene ‘speso’ nella creazione di una immagine, e una volta esauriti i crediti a disposizione potremo acquistarne altri in base alle nostre esigenze, al prezzo di 15 dollari ogni ‘pacchetto’ di 115 crediti. A differenza di ChatGPT, Dall-E 2 non offre ancora i risultati riscontrabili in altri strumenti simili, anche se (come si può vedere dalla foto) ha fatto enormi progressi dalla prima alla seconda versione e oggi permette di generare immagini di buona qualità. Dall-E 2 permette anche di modificare successivamente le immagini precedentemente generate (per esempio eliminando elementi dell’immagine) o generarne una nuova versione.

Attualmente, Dall-E 2 offre prestazioni interessanti soprattutto nella generazione di immagini di animali, ma i risultati lasciano spesso a desiderare anche perché si tratta di una piattaforma ancora in fase di sperimentazione. Una versione “semplificata” di questo strumento, chiamata Dall-E Mini, è utilizzabile sul sito di Craiyon, e consente un utilizzo gratuito a fronte di inserzioni pubblicitarie e dell’apposizione di una filigrana (watermark) sulle immagini prodotte.

Midjourney

Midjourney è salito alla ribalta per la sua capacità di generare immagini incredibilmente realistiche, come si può notare nell’immagine sopra, che mostra appunto alcuni esempi dello ‘showcase’. Si tratta sicuramente lo strumento più potente e preciso attualmente disponibile in questo settore, anche se la sua potenza e versatilità possono essere realmente ‘dominate’ solo grazie alla complessità del prompt di testo e all’abbinamento dei numerosi parametri che è possibile associarvi, ampiamente descritti nella guida presente sul sito. Anche Midjourney prevede, inoltre, la possibilità di utilizzare un’immagine esistente come base per la generazione di nuove immagini.

A differenza di altri strumenti di generazione immagini, Midjourney viene utilizzato per mezzo della piattaforma Discord, sulla quale è quindi necessario registrarsi e di cui occorre scaricare e installare l’apposita applicazione (vedi foto seguente).

Gli abbonamenti partono, al momento, da circa 10 dollari al mese per 3 ore e un quarto di elaborazione e permettono un uso delle immagini prodotte anche a fini commerciali.

All’interno dei diversi ‘canali’ di chat #newbies dell’applicazione/piattaforma Discord (vedi foto sopra), sarà poi possibile inviare al ‘bot’ il prompt per l’immagine che vogliamo generare, facendolo precedere dal comando /imagine, mentre per utilizzare un’immagine esistente, dopo averla caricata, useremo il comando /blend seguito dal link dell’immagine stessa. Nel caso di Midjourney abbiamo a disposizione una quantità limitata di ‘tempo macchina’ per generare un certo numero di immagini, dopodiché occorre abbonarsi a uno dei piani disponibili, che dà un tot di ore al mese. Il tempo, in questo caso, si esaurisce nell’elaborazione delle immagini; quindi, sarà variabile in funzione della complessità e risoluzione delle stesse.

Jasper Art

A differenza dei due strumenti appena descritti, Jasper Art (che è solo uno degli strumenti generativi disponibili sulla piattaforma Jasper) permette l’utilizzo di prova solo a fronte di una registrazione in cui forniamo anche i nostri dati di pagamento, il che potrebbe scoraggiare molte persone dal provarlo se non realmente interessati alle sue caratteristiche.

Riguardo a queste ultime, al di là dell’interfaccia standard che prevede un campo per l’inserimento del prompt, corredato possibilmente dal maggior numero di dettagli possibile riguardo alle caratteristiche dell’immagine che vogliamo produrre, per esempio lo ‘stile’ (artistico, ecc.) in cui si vuole che il soggetto richiesto sia riprodotto.

La qualità delle immagini, riscontrabile come sempre nella galleria di esempi, anche a fronte di prompt non particolarmente elaborati risulta buona e, come nei casi già visti (e nella maggior parte di questi strumenti), vengono fornite quattro varianti per ogni immagine prodotta, in modo da consentirci di individuare quella più fedele al nostro obiettivo. La piattaforma che ospita Jasper è orientata soprattutto a chi opera nel settore del marketing, affiancando infatti altri tool creativi dedicati al testo. L’abbonamento parte da 49 dollari al mese e permette l’utilizzo, oltre che del generatore di immagini, anche degli altri strumenti della piattaforma Jasper dedicati al testo.

Nightcafe

Registrandosi gratuitamente a Nightcafè si ottengono i primi tre crediti per l’uso di prova, cui possiamo aggiungerne altrettanti accettando di ricevere email promozionali (ogni 4 immagini useremo un credito). L’interfaccia di questo strumento di generazione immagini è abbastanza ordinata e oltre al campo per l’inserimento del prompt (anche in italiano), offre la possibilità di scegliere il ‘modello’ di intelligenza artificiale, fra cui troviamo anche quelli più noti come Dall-E 2 e Stable Diffusion (come si vede nell’immagine qui sotto).

Possiamo, inoltre, selezionare anche delle impostazioni predefinite (preset) che propongono vari stili grafici e ci consentono di ottenere più facilmente e rapidamente il genere di immagine desiderata, se rientra fra le categorie proposte.

Le immagini prodotte, anche grazie alle diverse impostazioni e stili, variano moltissimo nella qualità ma il risultato è di solito soddisfacente, pur non raggiungendo la perfezione e il realismo riscontrati nell’ultima versione di Midjourney. Tuttavia, strumenti come la rielaborazione pittorica di immagini fotografiche o la creazione di loghi rendono questo tool molto interessante.

Gli abbonamenti partono da 6 dollari al mese per 100 crediti (che diventano 150 al primo acquisto) e permettono di generare una media di 1.240 immagini durante l’arco del mese.

Wombo Dream

Contraddistinto da una interfaccia estremamente scarna ma funzionale, lo strumento di creazione immagini di Wombo Dream è direttamente accessibile dall’URL del sito, e si presenta nella versione gratuita in cui notiamo subito la possibilità di generare una sola immagine per volta e la presenza di banner pubblicitari nella parte bassa dello schermo (esclusi nella schermata di esempio qui sopra). La qualità delle immagini è ottima, sebbene appaiano limitate, almeno nella versione attuale, al formato verticale. Anche in questo caso troviamo diversi ‘preset’ che ci aiutano nel rielaborare anche le immagini già create, ma solo nella versione a pagamento, mentre possiamo provare con i crediti gratuiti iniziali lo strumento di modifica basato su un ulteriore prompt di testo. Interessante la possibilità di rielaborare o creare i cosiddetti NFT, acquisendo i diritti completi dell’immagine generata.

L’abbonamento alla versione Premium parte da 9,99 dollari al mese e garantisce ulteriori strumenti e stili oltre a una maggiore velocità di elaborazione e, ovviamente, l’aggiunta delle tre varianti per ogni immagine.

Starry AI

Una volta effettuato l’accesso a Starry AI (usando un account Google o Apple) ci troviamo subito di fronte alla scelta fra la generazione di immagini artistiche oppure fotografiche, scelta che potremo comunque rifare una volta di fronte alla schermata di lavoro, usando il menu in alto a sinistra. Fra gli strumenti immediatamente disponibili troviamo, inoltre, quello per caricare un’immagine da usare come base, la scelta del formato per quella prodotta, il livello qualitativo (che influisce ovviamente sui tempi di elaborazione) e, per la versione a pagamento, l’elemento Seed che influenza, come in Midjourney, lo stile dell’immagine.

Un’altra novità interessante è il ‘prompt builder’, che ci propone un pannello visuale per la scelta di stili su cui possiamo cliccare per aggiungere ulteriori parametri all’immagine da generare.

La qualità delle immagini è ottima anche in questo caso, anche se i pochi crediti a disposizione nella versione gratuita iniziale (visualizzati in alto a destra) si esauriscono con poche immagini, ma vengono rinnovati dal giorno successivo. Possiamo, inoltre, guadagnare ulteriori crediti gratuiti con semplici operazioni come la condivisione sui nostri account social Twitter e Instagram oppure su altre piattaforme come TikTok o Reddit. L’abbonamento, nel caso di StarryAI, parte da 11,99 dollari al mese per 200 immagini (50 crediti).

Bing

Dopo il primo lancio del chatbot basato sugli stessi modelli di OpenAI usati per ChatGPT, Microsoft ci ha gradualmente abituati all’evoluzione degli strumenti inclusi nel suo Bing, ultimo in ordine di tempo, appunto, Bing Image Creator (in italiano Creatore di Immagini di Bing) il cui funzionamento è basato appunto sul modello Dall-E di OpenAI, azienda in cui Microsoft ha pesantemente investito per potenziare i suoi servizi e strumenti software. Oltre che utilizzarlo direttamente nella pagina del browser usando il link che abbiamo usato sopra, questo strumento è disponibile nel pannello laterale che raccoglie i diversi strumenti presenti nel browser Edge, e fornisce in entrambi i casi quattro immagini basate sul prompt fornito, nel quale possiamo includere anche eventuali ‘stili’ (per esempio ‘qualità fotografica’ o ‘arte digitale’).

La qualità delle immagini, essendo basata su DALL-E, è quasi sempre buona, e possiamo crearne 25 al giorno nella versione attuale del servizio. L’utilizzo di Bing è sempre legato alla registrazione di un account Microsoft, che è gratuito, ma i ‘crediti’ utilizzabili per la generazione di immagini sono limitati nella giornata e rinnovati quotidianamente. Inoltre, è possibile ‘collezionare’ dei punti extra che velocizzano l’elaborazione, partecipando a diverse iniziative online. Al momento le immagini generate con questo strumento non si possono usare, però, per fini commerciali.

Fotor

Anche la pagina di utilizzo di Fotor è molto semplice e immediata, con il suo campo per l’inserimento del prompt a centro schermo, ma appena inseriamo le nostre istruzioni si trasforma e mostra anche, nella parte sinistra, le impostazioni per la scelta del formato e una serie di stili da applicare all’immagine che sarà generata. I risultati sono come sempre interessanti e strettamente legati alla complessità e precisione del prompt, e i crediti offerti inizialmente sono anche in questo caso sufficienti per poche immagini.

Accedendo alla sezione Inspiration, dalla voce in alto al centro della pagina, potremo esplorare diverse immagini con i relativi prompt e la specifica dello stile, quando presente. Anche nel caso di Fotor possiamo caricare una nostra immagine e rielaborarla con gli strumenti a disposizione. L’abbonamento al servizio parte da 9,99 dollari mensili per 200 crediti, che possono essere usati anche per gli altri strumenti grafici del portale (rimozione dello sfondo, applicazione dell’effetto ‘fumetto’, ecc.), oltre che per la creazione stessa delle immagini.

Pixray

In quanto a minimalismo, Pixray è probabilmente lo strumento più scarno in assoluto fra quelli esaminati in questa rassegna, e si presenta con un’interfaccia molto simile agli ambienti di sviluppo per programmatori. Una volta inserito il prompt, al quale possiamo associare un ‘drawer’, ovvero un parametro che determina il ‘motore’ utilizzato per la generazione dell’immagine, e una serie di altre impostazioni sotto forma di codici, vedremo scorrere l’elaborazione in forma numerica, accompagnati poi dalla formazione graduale dell’immagine risultante. Sotto quest’ultima, troveremo poi un potenziometro (slider) con cui ripercorrere le fasi di elaborazione, se lo desideriamo.

Una volta esaurito il ‘tempo’ di elaborazione consentito dalla fase di prova, viene richiesto di acquistare tempo supplementare, da utilizzare in base al modello generativo impiegato per la creazione della nostra immagine.

Pixray è solo uno dei numerosi strumenti disponibili sulla piattaforma di Replicate, dedicati anche alla rielaborazione di immagini (per esempio aumentandone la risoluzione o ‘restaurando’ quelle danneggiate), all’audio (generazione da prompt o trascrizione in formato testo), oppure al testo, a seconda del modello scelto. Si tratta, tuttavia, di un ambiente molto più tecnico e di conseguenza meno adatto al grande pubblico, al contrario degli strumenti esaminati in precedenza.

