Intelligenze artificiali generative, facciamo un po’ di luce

Abbiamo provato diverse AI generative per testare quali sono le loro potenzialità nell’immediato. I risultati sono meno scontati di quanto si possa pensare, anche se tutte hanno il merito di rilanciare il dibattito tra l’imitare l’uomo e l’emularlo

Le intelligenze artificiali generative non sono tutte uguali e, tra queste, non ce ne sono in grado di sostituire l’uomo. Andiamo controcorrente rispetto a quelle testate che, commentando le capacità di ChatGPT, hanno intravisto dietro l’angolo il momento in cui una AI sarebbe diventata più pertinente dell’uomo.

ChatGPT è interessante e profondamente ignorante ma, insieme a molte altre AI generative o discorsive, ha il merito di rendere realmente democratico l’uso delle intelligenze artificiali. Chiunque può provarle, chiunque può misurare con il proprio occhio e con le proprie sensibilità cosa sono in grado di fare. E questo contribuisce a sdoganare un dibattito secolare tra la capacità della macchina (o di qualcosa di inanimato) di emulare e imitare l’uomo.

Indice degli argomenti:

ChatGPT e le AI generative

Ce ne sono una quantità notevole, tra quelle che creano o convertono testi, immagini, video e audio. Ne abbiamo provate diverse dando maggiore spazio a quelle meno note, soffermandoci però sulle tanto discusse ChatGPT e LensAI, entrambe finite al centro delle attenzioni di media specializzati e no. Cominciamo la disamina proprio da queste due perché, ridimensionando le capacità di quelle AI che più sembrano impensierire l’uomo, diventa più evidente che le capacità di tutte le altre, meno specializzate, siano da ridimensionare.

ChatGPT

ChatGPT è un’AI conversazionale rilasciata a fine novembre da OpenAI, è stata proiettata sulle primissime pagine di tutti i media per le sue (apparenti) capacità e non per gli argomenti che introduce. Partiamo dalla cosa più semplice: ChatGPT è ignorante perché attinge a un dataset preparato dall’uomo.

Ognuno può provare da sé registrandosi gratuitamente sul sito di OpenAI: abilità semantiche comparabili a quelle di uno studente delle scuole medie, sintassi da studente di scuole elementari e pessime attitudini matematiche. Si può non essere d’accordo, per questo motivo suggeriamo di chiedere a ChatGPT quali nozioni ha delle equazioni algebriche di terzo grado.

ChatGPT attinge a un dataset di cui si sa relativamente poco, se non che è alimentato da informazioni create dall’uomo. Non è nostra intenzione, in questa sede, ritornare sulla potenziale mancanza di etica o sulla deriva foriera di pregiudizi che ChatGPT può imboccare, perché il problema è a monte: se non sappiamo da quali fonti attinge i dati che restituisce, non possiamo neppure sapere se sono giusti senza opportune verifiche, a meno che non siano palesemente sbagliati.

Una panoramica delle varie AI Generative

Le AI generative non sono in grado di sostituire l’uomo

Il vero pregio di ChatGPT è quello di avere aperto un dibattito che ha causato reazioni le quali, a loro volta, hanno spinto ad affrontare un tema prima che diventi pressante. In Australia gli atenei hanno reintrodotto gli esami carta e penna, le scuole dello Stato di New York e, quelle della città di Los Angeles, hanno proxato il sito di ChatGPT affinché non possa essere raggiunto dalle rispettive reti internet ed è un segnale, benché spropositato, apprezzabile come parte di una discussione ormai già avviata: oggi le AI generative non sono in grado di rimpiazzare l’uomo, ciò non esclude che in futuro le cose possano cambiare.

Però ChatGPT è in grado di scrivere email di phishing più credibili di quelle sgrammaticate a cui siamo abituati oggi e questo, è un problema più stringente rispetto al timore che possa essere usata per scrivere fake news o documenti scientifici, cosa che riuscirebbe a fare in modo assai approssimativo perché, le capacità dialettiche e sintattiche delle AI conversazionali odierne, sono oggi poca cosa. Tant’è che i metodi impiegati per riconoscere un testo scritto da una di queste AI valutano l’uso frequente di medesimi termini, un’elementare complessità dei periodi e un uso ripetitivo e non variegato della punteggiatura.

Il dibattito però è aperto e ci si sta ponendo domande pertinenti tant’è che l’Unione europea, mediante apposite linee guida, non esclude in modo aprioristico che le AI possano entrare negli strumenti didattici scolastici. Insomma, il momento per riparare il tetto è quando c’è il sole e non quando piove, così come recita una frase attribuita all’ex presidente Usa, John Fitzgerald Kennedy.

LensAI

Tra le AI di tipo “text-to-NFT” è emersa LensAI, finita agli onori della cronaca a dicembre del 2022 per una perfettibile applicazione dei principi della privacy e perché non del tutto ligia al rispetto dei generi e delle minoranze. Ciò non toglie che è un ottimo prodotto e fa il suo in modo egregio. Fa leva su Stable diffusion, modello di apprendimento automatico profondo usato anche nella generazione di immagini partendo dal testo.

La citiamo a parte perché, per essere usata in sicurezza – come suggerisce Wired.com – vanno prese alcune contromisure che raccomandiamo di estendere a tutte le IA di cui discuteremo qui: laddove è necessaria la registrazione è consigliabile fornire indirizzi email temporanei oppure indirizzi email creati ad hoc proprio farne uso, senza divulgare quello di cui si fa uso principalmente. Inoltre, è bene leggere le policy dei diversi siti che offrono la possibilità di provare un’AI e questo ha due obiettivi primari, ovvero sapere quale procedura seguire per chiedere la totale cancellazione dei propri dati e, in seconda istanza, accorgersi che molti di questi siti hanno politiche sulla privacy non proprio limpide.

Non da ultimo, nel caso in cui esistano app per provare queste AI, sarebbe opportuno cancellarle del tutto (dati inclusi) dopo averle provate.

AI Text-to-image

Sono le AI che convertono testo in immagine. Di DALL-E 2 abbiamo già parlato, così come delle potenzialità e dei rischi di Stable Diffusion.

GauGAN2 di Nvidia. Per poterlo usare occorre concordare con la possibilità che le immagini create possano essere usate per scopi non meglio dichiarati, cosa questa relativamente importante se si generano nuove immagini e, più invasiva, se si vuole provare le potenzialità del tool caricando una foto dal proprio dispositivo. Tuttavia, benché usi un dataset molto limitato, restituisce immagini interessanti e coniuga le potenzialità dell’elaborazione grafica tradizionale con quelle delle AI.
Pixray / text2image è un’AI generativa degna di attenzione. Può essere provata in modo gratuito e senza obblighi di registrazione. Il codice può essere prelevato su GitHub e utilizzato anche in Docker, la piattaforma che supporta la creazione di applicazioni.

È sufficiente digitare una frase nel campo a sinistra e selezionare il motore di rendering gradito. La composizione dell’immagine richiede una manciata di minuti ma, cosa di rilevante interesse, è possibile consultare il log delle attività svolte e ripercorrere le varie fasi della creazione del risultato. Inoltre, sono disponibili le Api per Python.

NightCafé propone una formula d’uso gratuita (fino a 28 immagini al giorno) e una, mediante la quale impostare più parametri, il cui costo è espresso in un numero variabile di crediti acquistabili in diversi pacchetti (da 0,03 a 0,05 dollari per credito). Un’IA non nuovissima, risale al 2019, che sfrutta le capacità di elaborazione delle GPU per restituire risultati rapidi e pregevoli. Abbiamo provato la versione web, che può essere consultata senza necessità di registrazione. Sotto il “cane che passeggia sulla luna” che abbiamo chiesto a NightCafé di realizzare.

Immagine che contiene testo, spiaggia, esterni, sabbia Descrizione generata automaticamente

Facile e intuitiva da usare, fa leva su reti neurali e si prefigge lo scopo di democraticizzare l’uso delle AI generative, con uno sguardo anche al mercato NFT, giacché non esclude che ognuno possa commercializzare le immagini prodotte.

Altre AI generative di tipo text-to-image

Jasper (a pagamento, a partire da 40 dollari mensili), anche se ci sono alternative di maggiore interesse quali, per esempio, Dream. Disponibile per dispositivi iOS e Android è specializzata nell’art work, meno per chi ricerca la chiarezza dei dettagli o vuole creare immagini molto elaborate. Utilizzabile anche gratuitamente (dopo 30 secondi di pubblicità) oppure pagando 4,99 dollari per un abbonamento premium settimanale fino a 169,99 dollari per un abbonamento senza limiti di tempo.
Craiyon, già nota con il nome di Dall-e mini, è proposta senza troppo fronzoli: si digita un testo da convertire in immagine e si clicca sul pulsante Draw. Una manciata di secondi di attesa e il risultato è servito. Qui il nostro “cane sulla luna”.

Text-to-video

L’offerta è un po’ più contenuta rispetto a quella delle IA che convertono testo in immagini, ma l’efficacia è notevole.

Runway, nella versione gratuita, permette di fare poche cose. Mettendo mani al portafogli diventa uno strumento di editing video e immagini potente. Permette di fare ciò che in genere viene affidato a popolari software di rotoscoping, come Rotobrush 2 di Adobe, e riuscire a provarne tutte le funzionalità è compito degno soltanto dei professionisti dell’editing, soprattutto video.

Un realismo contrapposto a una non sempre immediata facilità d’uso e che coniuga le potenzialità dell’IA con la rapidità di esecuzione, restituendo risultati dettagliati in tempi brevi. Uno strumento per appassionati o professionisti, i cui costi variano da 144 a 336 dollari l’anno a seconda del pacchetto scelto.

Fliki è un altro strumento valido, i cui costi variano dagli 8 dollari fino a 88 dollari al mese, che non si limita alla conversione di testo in video ma anche alla creazione di audio in oltre 75 lingue, ideali per affidare a un’AI una voce fuoricampo per fare da cicerone ai video.
Synthesia è già usato per la corporate communication e unisce la potenza di GPT-3 a quella di Stable Diffusion per restituire risultati notevoli. Può essere provato gratuitamente in modo limitato salvo registrazione. Chi volesse prendere misura con il fenomeno del deepfake non ha che da togliersi la curiosità. Va da sé che Synthesia nasce per perseguire scopi nobili e perfettamente legali ma, nel contesto delle capacità delle AI generative, prendere le misure con il livello di perfezione raggiunto è per lo meno educativo.
A queste si aggiungono Meta AI e Google AI, nate per convertire testo in video e non ancora del tutto in produzione, ma è possibile avere un assaggio delle loro potenzialità.

Tex-to-audio

Una varietà di strumenti online per creare voci professionali partendo da un testo ma anche per clonare voci. Vengono usati per dare a video e a presentazioni un tono più professionale, perché le AI impiegate riescono a simulare l’enfasi dell’uomo, ovviando così alla monotonia delle voci create con i sistemi text-to-speech che esistono da anni e fanno da sfondo anche alle guide native dei sistemi operativi pensate per facilitare l’uso degli ipovedenti.

Play.ht può essere provato gratuitamente previa registrazione, ma non in lingua italiana. Le versioni a pagamento sono Personal (171 dollari l’anno), Professional (351 dollari) e Premium (594 dollari annui).

Text-to-text

Le AI generative di questo tipo ci rimandano a GPT3 e a ChatGPT. Ci sono tuttavia altre applicazioni, tra le quali TextCortex che creano descrizioni per prodotti da vendere online, post, testi per video e email pensate per il supporto clienti, da scrivere in lingue diverse dalla propria.

La versione gratuita dà l’impressione che si tratti di un tool non evolutissimo, facile da usare ma dalle capacità limitate soprattutto in materia di traduzioni, non le esegue molto meglio di quanto possa fare Google. Poiché esiste anche un’estensione per Chrome, ognuno può facilmente mettere alla prova TextCortex.

SudoWrite è pensata per continuare storie introdotte dall’utente con un antefatto. Prodotto valido, la versione gratuita permette di sfruttare testi fino a 4.000 parole, ma non entusiasmante, la funzione Twist permette di scegliere tra diversi finali ma sembra avere una predilezione per lo Sci-fi. I prezzi delle versioni a pagamento variano a seconda del vocabolario accessibile all’AI e partono da 10 dollari fino ai 100 dollari al mese nella formula di pagamento annuale anticipato.

Conclusioni

Tra queste AI generative o conversazionali, alcune sono più capaci di altre. C’è di tutto un po’, a partire da quelle che sono prettamente ludiche e non hanno molte pretese a quelle che, soprattutto per quanto riguarda le AI di tipo text-to-image, possono generare prodotti capaci di essere premiate in concorsi d’arte.

Sostituire l’uomo, però, è tutt’altra cosa. Imitano, con risultati non sempre brillanti, alcune funzioni demandate all’uomo e, per quanto possano essere svolte in modo egregio, l’emulazione delle capacità umane è lontana.