Due nuovi modelli di intelligenza artificiale, basati su Gemini 2.0, che gettano le basi per una nuova generazione di robot utili. Li ha annunciati Google: il primo è Gemini Robotics, un modello avanzato di visione-linguaggio-azione (VLA) che è stato costruito su Gemini 2.0 con l’aggiunta di azioni fisiche, come nuova modalità di output allo scopo di controllare direttamente i robot.

Il secondo è Gemini Robotics-ER, un modello Gemini con comprensione spaziale avanzata, che consente ai robotisti di eseguire i propri programmi utilizzando le capacità di embodied reasoning (ER) di Gemini.

Entrambi questi modelli consentono a una varietà di robot di eseguire una gamma più ampia di attività del mondo reale rispetto a prima.

Il modello Gemini Robotics può essere messo a punto per controllare diversi robot. In alto: il robot umanoide Apollo prepara il pranzo. In basso: Un robot industriale bi-braccio assembla un elastico industriale attorno a un

sistema di pulegge

“Come parte dei nostri sforzi, stiamo collaborando con Apptronik per costruire la prossima generazione di robot umanoidi con Gemini 2.0. Stiamo anche lavorando con un numero selezionato di collaudatori di fiducia per guidare il futuro di Gemini Robotics-ER. Non vediamo l’ora di esplorare le capacità dei nostri modelli e continuare a svilupparli nel percorso verso applicazioni del mondo reale”, si legge sul blog dell’azienda.

Gemini Robotics: Bringing AI to the physical world

Gemini Robotics: portare l'intelligenza artificiale nel mondo fisico

Gemini Robotics

Gemini Robotics è il modello di visione-linguaggio-azione più avanzato.

Per essere utili e di aiuto alle persone, i modelli di intelligenza artificiale per la robotica devono avere tre qualità principali:

devono essere generali, ovvero in grado di adattarsi a diverse situazioni; devono essere interattivi, ovvero in grado di comprendere e rispondere rapidamente alle istruzioni o ai cambiamenti nel loro ambiente; devono essere abili, ovvero in grado di fare il tipo di cose che le persone generalmente possono fare con le mani e le dita, come manipolare attentamente gli oggetti.

Gemini Robotics rappresenta un passo sostanziale nelle prestazioni su tutti e tre gli assi, avvicinandoci a robot veramente di uso generale.

Generalità

Gemini Robotics sfrutta la comprensione del mondo di Gemini per generalizzare a nuove situazioni e risolvere un’ampia varietà di compiti fuori dagli schemi, inclusi compiti mai visti prima in formazione. Gemini Robotics è anche abile nel gestire nuovi oggetti, istruzioni diverse e nuovi ambienti. Nel report tecnologico, Google mostra che in media Gemini Robotics più che raddoppia le prestazioni su un benchmark di generalizzazione completo rispetto ad altri modelli di visione-linguaggio-azione all’avanguardia.

Gemini Robotics: Generality in action

Una dimostrazione della comprensione del mondo di Gemini Robotics.

Interattività

Per operare nel mondo dinamico e fisico, i robot devono essere in grado di interagire senza problemi con le persone e l’ambiente circostante e adattarsi ai cambiamenti al volo.

Poiché è costruito su una base di Gemini 2.0, Gemini Robotics è intuitivamente interattivo. Attinge alle capacità avanzate di comprensione del linguaggio di Gemini e può comprendere e rispondere a comandi formulati in un linguaggio quotidiano, colloquiale e in lingue diverse.

Può comprendere e rispondere a un set molto più ampio di istruzioni in linguaggio naturale rispetto ai modelli precedenti, adattando il suo comportamento all’input. Inoltre, monitora costantemente l’ambiente circostante, rileva i cambiamenti nel suo ambiente o nelle sue istruzioni e adatta le sue azioni di conseguenza. Questo tipo di controllo, o “sterzabilità”, può aiutare meglio le persone a collaborare con gli assistenti robot in una serie di contesti, da casa al posto di lavoro.

Gemini Robotics: Dynamic interactions

Se un oggetto gli sfugge di mano o qualcuno sposta un oggetto, Gemini Robotics riprogramma rapidamente e continua, un'abilità cruciale per i robot nel mondo reale, dove le sorprese sono la norma.

Destrezza

Il terzo pilastro fondamentale per costruire un robot utile è agire con destrezza. Molti compiti quotidiani che gli esseri umani svolgono senza sforzo richiedono sorprendentemente capacità motorie fini e sono ancora troppo difficili per i robot. Al contrario, Gemini Robotics può affrontare compiti estremamente complessi e in più fasi che richiedono una manipolazione precisa, come piegare origami o mettere uno spuntino in un sacchetto.

Gemini Robotics: Dexterous skills

Gemini Robotics mostra livelli avanzati di destrezza

Molteplici realizzazioni

Infine, poiché i robot hanno forme e dimensioni diverse, Gemini Robotics è stato progettato anche per adattarsi facilmente a diversi tipi di robot. Google ha addestrato il modello principalmente sui dati della piattaforma robotica bi-braccio, ALOHA 2,

Aloha 2

ma ha anche dimostrato che poteva controllare una piattaforma bi-braccio, basata sui bracci Franka utilizzati in molti laboratori accademici.

Bracci robotici Franka

Gemini Robotics può persino essere specializzato per realizzazioni più complesse, come il robot umanoide Apollo sviluppato da Apptronik, con l’obiettivo di completare attività del mondo reale.

Robot Apollo

Migliorare la comprensione del mondo di Gemini

Insieme a Gemini Robotics, Google sta introducendo un modello avanzato di linguaggio visivo chiamato Gemini Robotics-ER (abbreviazione di “embodied reasoning”). Questo modello migliora la comprensione del mondo di Gemini nei modi necessari per la robotica, concentrandosi in particolare sul ragionamento spaziale, e consente ai robotici di collegarlo ai loro controller di basso livello esistenti.

Gemini Robotics lavora su diversi tipi di robot

Gemini Robotics-ER migliora notevolmente le capacità esistenti di Gemini 2.0 come il puntamento e il rilevamento 3D. Combinando il ragionamento spaziale e le capacità di codifica di Gemini, Gemini Robotics-ER può creare capacità completamente nuove al volo. Ad esempio, quando gli viene mostrata una tazza da caffè, il modello può intuire una presa appropriata a due dita per prenderla dal manico e una traiettoria sicura per avvicinarsi.

Gemini Robotics-ER può eseguire tutti i passaggi necessari per controllare un robot fin da subito, tra cui percezione, stima dello stato, comprensione spaziale, pianificazione e generazione di codice. In un tale contesto end-to-end, il modello raggiunge un tasso di successo 2x-3x rispetto a Gemini 2.0. E laddove la generazione di codice non è sufficiente, Gemini Robotics-ER può persino attingere alla potenza dell’apprendimento in contesto, seguendo gli schemi di una manciata di dimostrazioni umane per fornire una soluzione.

Gemini Robotics-ER eccelle nelle capacità di embodied reasoning, tra cui il rilevamento di oggetti e il puntamento di parti di oggetti, la ricerca di punti corrispondenti e il rilevamento di oggetti in 3D. Questo è un collage di visualizzazioni che mostrano queste capacità. In alto a sinistra: rilevamento di oggetti 2D, in alto a destra: puntamento, in basso a sinistra: corrispondenza multi-vista, in basso a destra: rilevamento di oggetti 3D.

Avanzamento responsabile dell’intelligenza artificiale e della robotica

Mentre esplora il potenziale continuo dell’intelligenza artificiale e della robotica, Google sta adottando un approccio olistico e stratificato per affrontare la sicurezza nella ricerca, dal controllo motorio di basso livello alla comprensione semantica di alto livello.

La sicurezza fisica dei robot e delle persone che li circondano è una preoccupazione di lunga data e fondamentale nella scienza della robotica. Ecco perché i robotici hanno misure di sicurezza classiche come evitare collisioni, limitare l’entità delle forze di contatto e garantire la stabilità dinamica dei robot mobili.

Gemini Robotics-ER può essere interfacciato con questi controller critici per la sicurezza di “basso livello”, specifici per ogni particolare forma di realizzazione. Basandoci sulle principali funzionalità di sicurezza di Gemini, Google consente ai modelli Gemini Robotics-ER di comprendere se un’azione potenziale è sicura o meno da eseguire in un dato contesto e di generare risposte appropriate.

Per far progredire la ricerca sulla sicurezza della robotica nel mondo accademico e industriale, sta anche rilasciando un nuovo set di dati per valutare e migliorare la sicurezza semantica nell’intelligenza artificiale e nella robotica.

Oltre alla partnership con Apptronik, il modello Gemini Robotics-ER è disponibile anche per tester di fiducia tra cui Agile Robots, Agility Robots, Boston Dynamics ed Enchanted Tools.

