Metaverso, quali sono le applicazioni dell’AI

Dall’elaborazione dei dati generati dagli utenti, proseguendo con l’AI generativa per creare ambienti virtuali fotorealistici e avatar somiglianti agli utenti, passando per la capacità di riconoscere i movimenti del corpo e rendere così l’esperienza nel metaverso più naturale.

L’intelligenza artificiale si sta dimostrando una delle colonne su cui si svilupperà il metaverso. A cominciare dall’elaborazione dei dati generati dagli utenti, proseguendo con l’AI generativa per creare ambienti virtuali fotorealistici e avatar somiglianti agli utenti, passando per la capacità di riconoscere i movimenti del corpo e rendere così l’esperienza nel metaverso più naturale. Ma l’AI potrà anche dare vita ai personaggi digitali che popoleranno i mondi virtuali, come i personaggi non umani e gli assistenti personali, e consentirà a tutti di capirsi nella propria lingua effettuando traduzioni simultanee del parlato. L’intelligenza artificiale potrà aiutare a creare esperienze sempre più coinvolgenti e a misura dell’utente, per massimizzare il tempo di attività e di engagement come avviene oggi nei social network, e potrebbe svolgere funzioni di vigilanza fermando le molestie prima ancora che avvengano, a patto di non avere problemi con un’AI invadente che ascolta tutte le nostre conversazioni e valuta ogni nostro movimento.

Indice degli argomenti:

Quale definizione per il metaverso

Una delle difficoltà che abbiamo in questi anni è definire con sufficiente esattezza cosa sia il metaverso, un termine salito alla ribalta più per questioni di marketing che altro. Chi ha qualche capello bianco ricorderà problemi simili nel definire il “cyberspazio” negli anni del boom di Internet; un problema che oggi non si pone poiché l’uso pervasivo e continuo del mezzo fa passare il nome e la definizione in secondo piano, un’assuefazione che probabilmente toccherà anche al metaverso negli anni a venire.

A voler comunque insistere nel cristallizzare una definizione, che sia se non altro utile a stabilire le possibilità e i limiti della tecnologia per questo articolo, possiamo considerare il metaverso come una serie di ambienti digitali con vari livelli di immersività – dal semplice browser o smartphone, per finire ad ambienti completamente in realtà virtuale – che consentano l’interazione fra molti utenti (un ambiente limitato a un singolo utente non ricade nella definizione). Il metaverso, tuttavia, non inizia e finisce con un videogioco multiutente, bensì assumerà un ruolo così importante e coinvolgente da rappresentare un nuovo tassello dell’esistenza umana o, se vogliamo, uno strato digitale che si sovrapporrà e si intersecherà con quello fisico.

Uno degli elementi fondamentali di questo nuovo ambiente saranno le interazioni che avremo con altri utenti, che ci porteranno ad investire risorse – tempo sì, ma anche risorse finanziarie – per migliorare il nostro status e la nostra esperienza nel mondo digitale. Quindi si acquisteranno beni e servizi digitali, magari sotto forma di NFT, da aziende e da altri utenti, alimentando un’economia parallela ma interconnessa con quella reale. Si potranno assumere identità diverse da quella fisica, in certi casi più appaganti e coinvolgenti di quella che abbiamo: pensiamo al personaggio di William Dafoe nel film del 1999 eXistenZ, che era un benzinaio nel mondo reale ma si trasformava in una divinità nella realtà digitale. Una cosa che già in parte avviene da anni con i MMORPG, Massively multiplayer online role-playing game, giochi dove milioni di persone dismettono i panni della vita di tutti i giorni per diventare maghi, guerrieri, elfi, e dove molti spendono una fortuna acquistando beni e servizi digitali utili soltanto al gioco.

Il metaverso, data la sua immersività, il maggior coinvolgimento fra utenti e un sicuro network effect provocato dagli ingenti investimenti di svariate aziende Big Tech (Facebook/Meta in primis) potrebbe rappresentare un nuovo modo di arricchire la propria esistenza, oppure una colossale perdita di tempo, a seconda di come saranno affrontate le varie fasi di implementazione e del modo in cui risponderà la nostra società.

Use case AI per il metaverso

L’intelligenza artificiale darà un supporto fondamentale al metaverso, semplificando l’accesso e la permanenza delle persone all’interno degli ambienti digitali, oltre ad aiutare con la generazione dei contenuti e l’interazione fra esseri umani e mondi virtuali. Ecco alcuni dei casi d’uso più importanti.

L’AI per tenere tutto in piedi

Come ben sanno le aziende che ospitano i MMORPG (come World of Warcraft o Elder Scrolls Online solo per citarne un paio) che devono essere in grado di far giocare simultaneamente oltre mezzo milione di utenti ogni giorno, tenere operativa e funzionante un’infrastruttura del genere richiede sforzi titanici sul piano delle risorse computazionali.

Ed è proprio per questo che recentemente Meta ha presentato l’AI Research SuperCluster (RSC), uno dei supercomputer AI più potenti al mondo, che quando sarà ultimato – verso la metà del 2022 – sarà in assoluto il più potente. Come dichiarato dall’azienda, uno dei compiti del supercomputer sarà proprio quello di occuparsi del metaverso, mantenendo operativi e funzionanti mondi digitali che dovranno essere in grado di ospitare le attività di milioni di utenti, anche simultaneamente, senza rallentamenti o problemi di risorse.

L’intelligenza artificiale, inoltre, sarà impiegata per scandagliare ed elaborare in tempo reale l’enorme mole di dati prodotta ogni secondo dalle attività degli utenti nel metaverso dell’azienda, per rendere possibili gli altri casi d’uso che andremo ora a illustrare.

RSC di Meta (fonte: Meta)

Creazione di ambienti virtuali

Anche un mondo digitale richiede la presenza di spazi e scenografie, per consentire a chiunque lo stia occupando in quel momento di muoversi, interagire con l’ambiente e svolgere le varie attività consentite da quel particolare luogo, che sia una sala riunioni immersa in un paesaggio montano, una cometa nello spazio più profondo o la ricostruzione di Minas Tirith. Ma mentre in passato per la costruzione di questi ambienti digitali dovevamo ringraziare squadre di sviluppatori che creavano semi-manualmente ogni singola parte, dalle colline al mare, posizionando alberi o mobili trascinandoli con il mouse, assicurandosi che i pavimenti e gli oggetti avessero la giusta collisione (chi non è mai caduto attraverso il mondo a causa di una collisione assente in un punto della mappa), domani sarà un modello di AI generativa a creare tutto questo, con pochissimi input umani.

Esso potrà creare ambienti che esistono realmente nel mondo fisico, generando la scena 3D partendo da semplici fotografie, consentendoci così di ricreare fedelmente qualsiasi posto esistente al mondo, dal Colosseo ai giardini dell’Alhambra di Granada, fino alla veranda della nostra casa al mare. Gli spazi saranno così fotorealistici e immersivi da risultare sbalorditivi.

Oppure potrà generare spazi completamente inventati, partendo dagli input degli sviluppatori ma anche usando l’apprendimento per rinforzo per progettare spazi più confortevoli, o divertenti, per gli utenti umani. Basterebbe analizzare quali sono gli ambienti dove gli utenti sembrano divertirsi di più, o rilassarsi di più, scoprendone le caratteristiche e sperimentando con la creazione di spazi che siano ancora più divertenti o ancora più rilassanti. Perfezionando la tecnica a ogni iterazione, fino a creare aree perfette per le varie esigenze umane.

ADOP: Approximate Differentiable One-Pixel Point Rendering

Video: ADOP, come creare video a partire da semplici fotografie

Realizzazione del proprio avatar

Benché nel metaverso sia possibile non far sapere a nessuno chi siamo, esisteranno situazioni – come, ad esempio, luoghi del metaverso dedicati alle riunioni di lavoro – dove mascherarsi dietro un nickname e una maschera di Salvador Dalì potrebbero non essere comportamenti comunemente accettati. In quegli ambienti sarà necessario e utile essere presenti non solo con il proprio nome, ma anche con un avatar che assomigli il più possibile a noi. L’intelligenza artificiale può aiutare anche in questo compito, con modelli che analizzano la nostra foto e ricreano un avatar 3D a nostra immagine e somiglianza.

Riconoscimento dei movimenti del corpo

Chi sta pensando a come farci trascorrere più tempo possibile nel metaverso sa perfettamente che le attuali interfacce non sono delle migliori. L’obiettivo è rendere più naturali possibili i movimenti, consentendo alle persone di compiere operazioni nella maniera più semplice, tipo prendere un oggetto o aprire un pannello virtuale. Per fare questo l’intelligenza artificiale sarà impiegata a decifrare i movimenti del corpo, catturati attraverso sensori di diverso tipo, trasformandoli in ordini o movimenti dell’avatar.

Alzare la mano per salutare qualcuno dovrà essere semplice come nel mondo fisico, senza tenere alcun controller in mano, e aprire o chiudere un pannello virtuale sarà facile e immediato, con l’AI che interpreterà correttamente ogni nostro movimento del corpo.

Ma il riconoscimento non si fermerà qui. L’AI saprà anche copiare le nostre espressioni facciali sull’avatar, così che un nostro sorriso sia anche il sorriso dell’avatar, trasferendo via via sempre più espressioni – aggrottare la fronte, sbadigliare, essere sorpresi, sbattere le palpebre, ecc. – sul nostro gemello digitale, affinché la nostra trasposizione dal mondo fisico a quello digitale sia la più fedele possibile.

Chatbot e assistenti virtuali

In un mondo digitale non possono ovviamente mancare gli abitanti digitali. Come già sa chi segue queste pagine, l’intelligenza artificiale è ora in grado di sostenere discussioni, interpretando correttamente l’input e producendo degli output adeguatamente correlati, dando l’impressione di comprendere ciò che le viene detto. Questa capacità, ottenuta grazie ai grandi modelli linguistici di cui GPT-3 è un esempio fra tanti, può essere incorporata nei vari agenti digitali che popoleranno il metaverso per produrre assistenti o compagni virtuali estremamente verosimili.

Nei giochi online questi agenti sono chiamati NPC, Non-Playing Characters (personaggi non giocanti), ovvero elementi che di solito sono graficamente simili agli avatar degli esseri umani, ma che sono lì a fare poche semplici attività, come far partire un’avventura, distribuire premi, recitare un discorso. Nel corso degli anni alcuni giochi hanno fatto assumere a questi agenti digitali compiti leggermente più complessi, come seguire il giocatore nelle avventure e combattere al suo fianco. Ma anche in quel caso questi “compagni” non mostrano grandi segni di intelligenza (anzi).

Nel metaverso, grazie all’AI, questi NPC o assistenti personali assumeranno una veste completamente rinnovata, compiendo azioni “intelligenti” ed espletando compiti ben più complessi. Pensiamo a un assistente digitale che aiuta ogni singolo essere umano a muoversi e ad esplorare il metaverso, riconoscendo gli sbagli dell’utente alle prime armi e suggerendogli modi per correggerli (o in certi casi tirandolo proprio fuori dai guai). Oppure un segretario digitale che prende i messaggi in arrivo mentre noi siamo in riunione nel metaverso, presentandoceli quando la riunione finisce.

O ancora, visto che questo già succede con diverse app per smartphone, immaginiamo un’area del metaverso dove i personaggi virtuali sono lì più in veste di amici o di compagni, con cui conversare, parlando del più o del meno, a cui raccontare i propri problemi o con i quali intrattenere vere e proprie “amicizie romantiche”. Non stupiamoci di tutto questo: la capacità da parte dell’AI di creare rappresentazioni umane fotorealistiche, assieme a quella di saper intrattenere discorsi anche di una certa profondità, in futuro renderà le avventure romantiche digitali come un’attività sottotraccia molto diffusa.

Traduzioni simultanee

La traduzione in tempo reale è uno dei casi d’uso esplicitamente dichiarati da Meta, che dedicherà parte del suo supercomputer proprio a questa attività. L’idea è quella di consentire a un gruppo di persone provenienti da diversi Paesi, dove ognuno parla una lingua diversa, di parlarsi e capirsi in tempo reale. Per fare ciò l’intelligenza artificiale dovrà anzitutto riconoscere la lingua parlata da un utente, interpretandone ogni singola parola e riconoscendo il significato, tradurla correttamente nella lingua parlata dall’altro interlocutore e quindi generare il testo tradotto in formato audio, magari con la stessa voce del primo interlocutore (in questo caso verrebbe usato un deepfake audio per simulare la voce).

Tutto ciò è già possibile, in teoria. In pratica richiede risorse imponenti, soprattutto se lo si vuole fare in tempo quasi reale e alla scala che richiede il metaverso. Ma Meta è da tempo che ha indirizzato risorse per arrivare a questo risultato. Nel settembre 2020 ha rilasciato Wav2vec, per riconoscere le strutture del parlato direttamente dall’audio senza passare per il testo trascritto. Nel maggio del 2021, con Wav2vec-U, ha dimostrato che il machine learning non supervisionato è in grado di riconoscere il parlato meglio degli altri metodi, mentre nel novembre dello stesso anno il suo modello di traduzione multi-lingua ha battuto gli altri modelli bilingue in una competizione sulle traduzioni automatiche. In quel frangente Meta ha dichiarato senza giri di parole che il suo obiettivo è quello di creare un traduttore universale.

Ora sappiamo che tutti questi sforzi in ricerca, iniziati già anni fa, erano indirizzati a trovare un modo per far parlare insieme persone provenienti da diversi Paesi nelle loro lingue madri, e quale caso d’uso migliore del metaverso per mettere in pratica questo progetto.

Wav2vec-U sul benchmark Librispeech rispetto ai migliori sistemi nel tempo, che in genere utilizzano oltre 960 ore di dati trascritti. (Fonte: paperswithcode.com)

Algoritmi per aumentare l’engagement e la presenza

È pacifico che anche nel metaverso metriche come engagement, tempo di attività, frequenza di login e via discorrendo saranno fondamentali per le aziende che ospiteranno ambienti e contenuti digitali. Come oggi tutti i social network spingono a tenerci più tempo possibile nei loro sistemi, anche nel metaverso esisteranno algoritmi di raccomandazione e di selezione dei contenuti che faranno di tutto per suggerirci quello che più ci interessa.

Si tratta di una situazione molto familiare, dato che già ora ci colleghiamo ai social network per vedere quello che succede, per leggere qualcosa di nuovo, per dialogare con i nostri contatti o – più frequentemente – perché arriva qualche notifica che ci spinge a farlo. E quando apriamo la app o il sito, diversi algoritmi si mettono al lavoro per evitare che ci scolleghiamo troppo velocemente.

Con il metaverso sarà la stessa cosa, ma potenziata dal fatto che entreremo in un ambiente immersivo, dove gli algoritmi potranno contare su un maggiore coinvolgimento dell’utente e su molti più sensi – vista, udito, tatto – da poter stuzzicare, invogliare e infine sequestrare. Già oggi un’ora passata nella realtà virtuale trascorre molto velocemente, se non fosse per gli apparati ancora troppo ingombranti e pesanti sul volto. Quando sarà fisicamente più facile immergersi nel metaverso, e quando i goffi sistemi che regolano i contenuti saranno più sofisticati e intelligenti, staccarsi da questa nuova esistenza digitale diventerà sicuramente più difficile. L’AI, purtroppo, sarà un’arma in più che avranno le aziende per convincerci a restare collegati il più possibile e già adesso c’è chi ritiene che il metaverso di Meta sarà un posto pieno di marketing e manipolazione.

Moderazione e identificazione dei pericoli

Come già riportano alcune cronache, il metaverso non è esente da problemi squisitamente umani come molestie o bullismo. Si tratta di sfide che tutte le piattaforme devono affrontare. Facebook prima, e Meta oggi, ne sanno qualcosa e non vogliono che il loro grandioso progetto sia rovinato dal molestatore di turno. L’intelligenza artificiale già oggi aiuta i moderatori umani a intercettare e a esaminare comportamenti sospetti, e nel metaverso questi controlli non potranno che aumentare. Non dimentichiamo che nella realtà virtuale ogni movimento del nostro avatar può facilmente essere registrato e documentato, così come ogni parola che diciamo o che sentiamo. All’aumentare dell’immersività e della sofisticatezza dei dispositivi, pensiamo ai tracker del corpo a cui facevamo riferimento prima, aumenteranno i data point che potrebbero essere intercettati e analizzati dall’AI.

Con questa mole di informazioni non sarebbe impossibile realizzare dei modelli che calcolino le probabilità che stia avvenendo (o che stia per avvenire) una molestia. Avendo abbastanza dati a disposizione basterebbe analizzare tutti i comportamenti avvenuti prima, durante e dopo le denunce di molestie per creare un modello in grado di riconoscerle o prevederle con una buona accuratezza. Un sistema, per ora del tutto ipotetico, potenzialmente molto utile per consentire a tutti di godersi un’esperienza digitale senza disturbi né offese, che tuttavia solleva anche diverse questioni, come quella sull’intromissione e sui livelli di vigilanza che siamo disposti ad accettare nelle nostre interazioni private.