NEWS

Stanford e Meta presentano CHOIS, l’AI che agisce “quasi” in modo umano



Indirizzo copiato

Il sistema è in grado di generare movimenti naturali e sincronizzati tra esseri umani virtuali e oggetti basandosi esclusivamente su descrizioni testuali

Pubblicato il 11 dic 2023



CHOIS
Credito: lijiaman.github.io

Ricercatori dell’Università di Stanford e del laboratorio Facebook AI Research (FAIR) di Meta hanno sviluppato un innovativo sistema di intelligenza artificiale in grado di generare movimenti naturali e sincronizzati tra esseri umani virtuali e oggetti basandosi esclusivamente su descrizioni testuali. Il nuovo sistema, chiamato CHOIS (Controllable Human-Object Interaction Synthesis), utilizza le più recenti tecniche di modelli di diffusione condizionale per produrre interazioni precise e senza soluzione di continuità.

Il lavoro, pubblicato in un documento su arXiv, lascia intravedere un futuro in cui gli esseri virtuali potranno comprendere e rispondere ai comandi linguistici con la stessa fluidità degli esseri umani.

“Generare interazioni continue tra uomo e oggetto a partire da descrizioni linguistiche all’interno di scene 3D pone diverse sfide”, sottolineano i ricercatori nel documento.

I ricercatori dovevano garantire che i movimenti generati fossero realistici e sincronizzati, mantenendo un contatto appropriato tra le mani umane e gli oggetti, e che il movimento dell’oggetto avesse una relazione causale con le azioni umane.

CHOIS, come funziona

Il sistema CHOIS si distingue per il suo approccio unico alla sintesi delle interazioni uomo-oggetto in un ambiente 3D. Il sistema CHOIS utilizza un modello di diffusione condizionale, un tipo di modello generativo in grado di simulare sequenze dettagliate di movimento.

Quando viene dato uno stato iniziale di posizione dell’uomo e dell’oggetto, insieme a una descrizione linguistica del compito desiderato, CHOIS genera una sequenza di movimenti che culminano nel completamento del compito.

Ad esempio, se l’istruzione è di spostare una lampada più vicina a un divano, CHOIS capisce questa direttiva e crea un’animazione realistica di un avatar umano che prende la lampada e la posiziona vicino al divano.

Ciò che rende CHOIS particolarmente unico è l’uso di waypoint di oggetti sparsi e di descrizioni linguistiche per guidare queste animazioni. I waypoint fungono da marcatori per i punti chiave della traiettoria dell’oggetto, assicurando che il movimento non solo sia fisicamente plausibile, ma sia anche in linea con l’obiettivo di alto livello delineato dall’input linguistico.

L’unicità di CHOIS risiede anche nell’integrazione avanzata della comprensione del linguaggio con la simulazione fisica. I modelli tradizionali spesso faticano a correlare il linguaggio con le azioni spaziali e fisiche, soprattutto su un orizzonte di interazione più lungo, dove è necessario considerare molti fattori per mantenere il realismo.

CHOIS colma questo divario interpretando l’intento e lo stile delle descrizioni linguistiche e traducendole in una sequenza di movimenti fisici che rispettano i vincoli del corpo umano e dell’oggetto.

Il sistema è particolarmente innovativo perché garantisce che i punti di contatto, come le mani che toccano un oggetto, siano rappresentati con precisione e che il movimento dell’oggetto sia coerente con le forze esercitate dall’avatar umano. Inoltre, il modello incorpora funzioni di perdita specializzate e termini di guida durante le fasi di addestramento e generazione per far rispettare questi vincoli fisici, il che rappresenta un significativo passo avanti nella creazione di IA in grado di comprendere e interagire con il mondo fisico in modo simile a quello umano.

Video Demo for Paper: Controllable Human-Object Interaction Synthesis

Implicazioni per la grafica computerizzata, l’AI e la robotica

Le implicazioni del sistema CHOIS sulla grafica computerizzata sono profonde, in particolare nel campo dell’animazione e della realtà virtuale. Consentendo all’intelligenza artificiale di interpretare istruzioni in linguaggio naturale per generare interazioni realistiche tra uomo e oggetto, CHOIS potrebbe ridurre drasticamente il tempo e lo sforzo necessari per animare scene complesse.

Gli animatori potrebbero potenzialmente utilizzare questa tecnologia per creare sequenze che tradizionalmente richiederebbero una minuziosa animazione di fotogrammi chiave, che richiede molto lavoro e tempo. Inoltre, negli ambienti di realtà virtuale, CHOIS potrebbe portare a esperienze più immersive e interattive, in quanto gli utenti potrebbero comandare i personaggi virtuali attraverso il linguaggio naturale, vedendoli eseguire compiti con precisione realistica. Questo maggiore livello di interazione potrebbe trasformare le esperienze VR da eventi rigidi e programmati ad ambienti dinamici che rispondono realisticamente agli input dell’utente.

Nel campo dell’intelligenza artificiale e della robotica, CHOIS rappresenta un passo da gigante verso sistemi più autonomi e consapevoli del contesto. I robot, spesso limitati da routine pre-programmate, potrebbero utilizzare un sistema come CHOIS per comprendere meglio il mondo reale ed eseguire compiti descritti in linguaggio umano.

Questo potrebbe essere particolarmente trasformativo per i robot di servizio in ambito sanitario, alberghiero o domestico, dove la capacità di comprendere ed eseguire un’ampia gamma di compiti in uno spazio fisico è fondamentale.

Per l’AI, la capacità di elaborare simultaneamente informazioni linguistiche e visive per eseguire compiti è un passo avanti verso il raggiungimento di un livello di comprensione della situazione e del contesto che finora è stato un attributo prevalentemente umano. Ciò potrebbe portare a sistemi di IA che siano assistenti più utili in compiti complessi, in grado di comprendere non solo il “cosa”, ma anche il “come” delle istruzioni umane, adattandosi a nuove sfide con un livello di flessibilità mai visto prima.

Prospettive future

Nel complesso, i ricercatori di Stanford e Meta hanno compiuto progressi fondamentali su un problema estremamente impegnativo all’intersezione tra computer vision, NLP (elaborazione del linguaggio naturale) e robotica.

Il team di ricerca ritiene che il lavoro svolto rappresenti un passo significativo verso la creazione di sistemi di intelligenza artificiale avanzati che simulino i comportamenti umani continui in ambienti 3D diversi. Inoltre, apre la strada a ulteriori ricerche sulla sintesi delle interazioni uomo-oggetto a partire da scene 3D e input linguistici, portando potenzialmente a sistemi di AI più sofisticati in futuro.

Articoli correlati

Articolo 1 di 2