Tre motivi per cui i robot stanno per diventare molto più utili. Il sogno della robotica fin dall’inizio è stato costruire robot in grado di svolgere i lavori domestici. Sebbene i roboticisti siano riusciti a far fare ai robot cose impressionanti in laboratorio, ciò richiede solitamente una pianificazione meticolosa in un ambiente strettamente controllato. Questo rende difficile per i robot lavorare in modo affidabile nelle case intorno a bambini e animali domestici, case con piantine molto diverse e piene di ogni tipo di disordine.
Il paradosso di Moravec
C’è una nota osservazione tra i roboticisti chiamata paradosso di Moravec: ciò che è difficile per gli umani è facile per le macchine, e ciò che è facile per gli umani è difficile per le macchine. Grazie all’AI, ora questo sta cambiando. I robot stanno iniziando a diventare capaci di svolgere compiti come piegare la biancheria, cucinare e scaricare cestini della spesa, che fino a poco tempo fa erano considerati quasi impossibili.
La robotica è a un punto di svolta. Un mix davvero entusiasmante di cose sta convergendo nella ricerca sulla robotica, che potrebbe portare a robot che potrebbero – forse – uscire dal laboratorio ed entrare nelle nostre case.
Ecco tre motivi per cui la robotica è sull’orlo di avere il suo “momento ChatGPT”.
Tre motivi per cui i robot domestici potrebbero decollare
1. L’hardware economico rende la ricerca più accessibile
I robot sono costosi. I robot altamente sofisticati possono facilmente costare centinaia di migliaia di dollari, il che li rende inaccessibili per la maggior parte dei ricercatori. Ad esempio, iPR2, una delle prime iterazioni di robot domestici, pesava 200 chilogrammi e costava 400mila dollari. Ma nuovi robot più economici stanno permettendo a più ricercatori di fare cose interessanti. Un nuovo robot chiamato Stretch, sviluppato dalla startup Hello Robot, è stato lanciato durante la pandemia con un prezzo molto più ragionevole di circa 18mila dollari, peso 23 chilogrammi. Ha una piccola base mobile, un bastone con una telecamera appesa, un braccio regolabile dotato di una pinza con ventose alle estremità e può essere controllato con un controller da console.
Nel frattempo, un team della Stanford ha costruito un sistema chiamato Mobile ALOHA (un acronimo approssimativo per “un sistema teleoperativo hardware open-source a basso costo”), che ha imparato a cucinare gamberetti con l’aiuto di sole 20 dimostrazioni umane e dati da altri compiti. Hanno utilizzato componenti disponibili sul mercato per assemblare robot con prezzi più ragionevoli nell’ordine delle decine, non delle centinaia, di migliaia.
2. L’AI ci aiuta a costruire “cervelli robotici”
Ciò che distingue questa nuova generazione di robot è il loro software. Grazie al boom dell’AI, l’attenzione si sta ora spostando dalle prodezze di destrezza fisica realizzate da robot costosi alla costruzione di “cervelli robotici a scopo generale” sotto forma di reti neurali. Invece della tradizionale pianificazione e formazione meticolose, i roboticisti hanno iniziato a utilizzare l’apprendimento profondo e le reti neurali per creare sistemi che apprendono dal loro ambiente in tempo reale e adattano il loro comportamento di conseguenza. L’estate scorsa, Google ha lanciato un modello visione-linguaggio-azione chiamato RT-2. Questo modello ottiene la sua comprensione generale del mondo dal testo e dalle immagini online su cui è stato addestrato, così come dalle sue proprie interazioni. Traduce questi dati in azioni robotiche.
E i ricercatori del Toyota Research Institute, della Columbia University e del MIT sono stati in grado di insegnare rapidamente ai robot a svolgere molti nuovi compiti con l’aiuto di una tecnica di apprendimento AI chiamata apprendimento per imitazione, più AI generativa. Credono di aver trovato un modo per estendere la tecnologia che alimenta l’AI generativa dal regno del testo, delle immagini e dei video al dominio dei movimenti dei robot.
Molti altri hanno approfittato dell’AI generativa. Covariant, una startup di robotica che si è separata dall’unità di ricerca sulla robotica ora chiusa di OpenAI, ha costruito un modello multimodale chiamato RFM-1. Può accettare prompt sotto forma di testo, immagine, video, istruzioni per robot o misurazioni. L’AI generativa permette al robot di capire le istruzioni e generare immagini o video relativi a quei compiti.
3. Più dati permettono ai robot di imparare più abilità
La potenza dei grandi modelli IA come GPT-4 risiede nelle enormi quantità di dati aspirati da internet. Ma questo non funziona davvero per i robot, che hanno bisogno di dati che sono stati specificamente raccolti per i robot. Hanno bisogno di dimostrazioni fisiche su come si aprono lavatrici e frigoriferi, come si raccolgono i piatti o come si piega la biancheria. Al momento questi dati sono molto scarsi e ci vuole molto tempo per gli umani per raccoglierli.
Una nuova iniziativa avviata da Google DeepMind, chiamata Open X-Embodiment Collaboration, mira a cambiare questo. L’anno scorso, l’azienda ha collaborato con 34 laboratori di ricerca e circa 150 ricercatori per raccogliere dati da 22 diversi robot, tra cui lo Stretch della Hello Robot. Il set di dati risultante, pubblicato nell’ottobre 2023, consiste in dimostrazioni dei robot che eseguono 527 abilità, come prendere, spingere e muovere. I primi segnali mostrano che più dati stanno portando a robot più intelligenti. I ricercatori hanno costruito due versioni di un modello per robot, chiamato RT-X, che poteva essere eseguito localmente sui computer dei singoli laboratori o accessibile via web. Il modello più grande, accessibile via web, è stato pre-addestrato con dati internet per sviluppare un “senso comune visivo”, o una comprensione di base del mondo, dai grandi modelli di linguaggio e immagine. Quando i ricercatori hanno eseguito il modello RT-X su molti robot diversi, hanno scoperto che i robot erano in grado di imparare abilità con successo del 50% in più rispetto ai sistemi che ogni singolo laboratorio stava sviluppando.
I robot incontrano l’intelligenza artificiale
Per molto tempo, la ricerca sulla robotica è stata un campo spietato, afflitto da progressi lenti. Ciò che distingue questa nuova generazione di robot è il loro software. Invece della pianificazione e dell’addestramento tradizionali, i robot hanno iniziato a usare l’apprendimento profondo e le reti neurali per creare sistemi che imparano dall’ambiente circostante e regolano il loro comportamento di conseguenza. Allo stesso tempo, un hardware nuovo e più economico, come i componenti di serie e i robot come Stretch, sta rendendo più accessibile questo tipo di sperimentazione.
In generale, i ricercatori utilizzano l’intelligenza artificiale per addestrare i robot in due modi. Pathak ha utilizzato l’apprendimento per rinforzo, una tecnica di intelligenza artificiale che consente ai sistemi di migliorare attraverso tentativi ed errori, per far sì che i robot adattino i loro movimenti in nuovi ambienti.
I “cani robotici” di Boston Dynamics
È una tecnica che anche Boston Dynamics ha iniziato a utilizzare per i suoi “cani” robot chiamati Spot.
Nel 2022, il team di Pathak ha utilizzato questo metodo per creare “cani” robotici a quattro zampe in grado di arrampicarsi su per i gradini e navigare su terreni difficili. I robot sono stati prima addestrati a muoversi in modo generico in un simulatore. Poi sono stati lasciati liberi nel mondo reale, con una sola telecamera incorporata e un software di visione computerizzata a guidarli. Altri robot simili si affidano a mappe interne del mondo strettamente prescritte e non possono navigare oltre.
Pathak afferma che l’approccio del team è stato ispirato dalla navigazione umana. Gli esseri umani ricevono informazioni sul mondo circostante dagli occhi e questo li aiuta a mettere istintivamente un piede davanti all’altro per muoversi in modo appropriato. In genere gli esseri umani non guardano il terreno sotto i loro piedi quando camminano, ma qualche passo più avanti, verso il punto in cui vogliono andare. Il team di Pathak ha addestrato i suoi robot ad adottare un approccio simile alla camminata: ognuno di essi ha usato la telecamera per guardare avanti. Il robot è stato quindi in grado di memorizzare ciò che aveva davanti per un tempo sufficiente a guidare il posizionamento delle gambe. I robot imparavano a conoscere il mondo in tempo reale, senza mappe interne, e regolavano il loro comportamento di conseguenza.
All’epoca, gli esperti dissero che la tecnica rappresentava una “svolta nell’apprendimento e nell’autonomia dei robot” e che avrebbe potuto consentire ai ricercatori di costruire robot con le zampe in grado di essere impiegati in natura.
Da allora i cani robot di Pathak sono cresciuti di livello. L’ultimo algoritmo del team permette a un robot quadrupede di fare parkour estremo. Il robot è stato addestrato a muoversi in modo generico in una simulazione. Ma utilizzando l’apprendimento per rinforzo, è stato in grado di apprendere nuove abilità in movimento, come saltare lunghe distanze, camminare sulle zampe anteriori e arrampicarsi su scatole alte il doppio della sua altezza. Questi comportamenti non sono stati programmati dai ricercatori. Al contrario, il robot ha imparato per tentativi ed errori e grazie agli input visivi della sua telecamera frontale. “Tre anni fa non credevo fosse possibile”, afferma Pathak.
L’apprendimento per imitazione
Nell’altra tecnica popolare, chiamata apprendimento per imitazione, i modelli imparano a eseguire compiti imitando, ad esempio, le azioni di un umano che teleopera un robot o utilizzando un auricolare VR per raccogliere dati su un robot. È una tecnica che è passata di moda nel corso dei decenni, ma che di recente è diventata più popolare con i robot che svolgono attività di manipolazione, spiega Russ Tedrake, vicepresidente della ricerca robotica presso il Toyota Research Institute e professore del MIT.
Abbinando questa tecnica all’intelligenza artificiale generativa, i ricercatori del Toyota Research Institute, della Columbia University e del MIT sono riusciti a insegnare rapidamente ai robot a svolgere molti nuovi compiti. Ritengono di aver trovato un modo per estendere la tecnologia che spinge l’AI generativa dal regno del testo, delle immagini e dei video al dominio dei movimenti dei robot.
L’idea è quella di partire da un umano, che controlla manualmente il robot per dimostrare comportamenti come sbattere le uova o raccogliere i piatti. Utilizzando una tecnica chiamata politica di diffusione, il robot è poi in grado di utilizzare i dati che gli vengono forniti per apprendere le abilità. I ricercatori hanno insegnato ai robot più di 200 abilità, come sbucciare le verdure e versare i liquidi, e dicono che stanno lavorando per insegnarne 1.000 entro la fine dell’anno.
Il team del Toyota Research Institute spera che questo possa portare un giorno a “grandi modelli di comportamento”, analoghi a grandi modelli di linguaggio, dice Tedrake. “Molte persone pensano che la clonazione del comportamento ci porterà a un momento di ChatGPT per la robotica”, dice Tedrake.
Tutto ciò sta ponendo le basi per robot che possano essere utili nelle case. Le esigenze umane cambiano nel tempo e insegnare ai robot a svolgere in modo affidabile un’ampia gamma di compiti è importante, perché li aiuterà ad adattarsi a noi. Questo aspetto è cruciale anche per la commercializzazione: i robot domestici di prima generazione avranno un prezzo elevato e devono possedere capacità utili tali da indurre i consumatori a investire in loro.
Per molto tempo, gran parte della comunità robotica è stata molto scettica nei confronti di questo tipo di approcci, afferma Chelsea Finn, professore assistente di informatica e ingegneria elettrica presso l’Università di Stanford e consulente del progetto Mobile ALOHA. Finn racconta che quasi un decennio fa, gli approcci basati sull’apprendimento erano rari alle conferenze di robotica e denigrati nella comunità robotica. “Il boom [dell’elaborazione del linguaggio naturale] ha convinto una parte maggiore della comunità che questo approccio è davvero molto potente”, afferma Finn.
C’è però un ostacolo: per imitare nuovi comportamenti, i modelli di intelligenza artificiale hanno bisogno di molti dati.