AI GENERATIVA

La corsa ai robot alimenta la lotta per i dati di addestramento



Indirizzo copiato

L’intelligenza artificiale sta rivoluzionando il modo in cui i robot apprendono, creando un bisogno crescente di dati di training. Aziende e i ricercatori si trovano a dover affrontare una serie di questioni etiche e legali per ottenere tali dati

Pubblicato il 2 mag 2024



ARI_VI_by_PAL_Robotics

L’AI sta rivoluzionando il modo in cui i robot apprendono, creando in aziende e ricercatori un bisogno crescente di dati. Ottenerli significa affrontare una serie di questioni etiche e legali. Da quando è stato rilasciato ChatGPT, interagiamo con gli strumenti AI più direttamente e regolarmente che mai. Ma interagire con i robot, al contrario, rimane ancora un’eccezione per la maggior parte delle persone.

I roboticisti ritengono che utilizzando nuove tecniche di AI raggiungeranno qualcosa desiderata per decenni: robot più capaci che possono muoversi liberamente in ambienti sconosciuti e affrontare sfide mai viste prima.

Russ Tedrake, vicepresidente della ricerca sulla robotica presso l’Istituto di Ricerca Toyota, parlando del ritmo attuale del campo dice di aver visto molti cicli di hype salire e scendere, ma nessuno come questo. La mancanza di accesso ai tipi di dati utilizzati per addestrare i robot in modo che possano interagire più agevolmente con il mondo fisico. È molto più difficile da ottenere rispetto ai dati utilizzati per addestrare i modelli AI più avanzati come GPT, principalmente testi, immagini e video prelevati da internet. I programmi di simulazione possono aiutare i robot a imparare come interagire con luoghi e oggetti, ma i risultati tendono ancora a cadere preda di quello che è noto come il “gap sim-to-real”, o fallimenti che sorgono quando i robot passano dalla simulazione al mondo reale. Per ora, abbiamo ancora bisogno di accedere a dati fisici del mondo reale per addestrare i robot. Questi dati sono relativamente scarsi e tendono a richiedere molto più tempo, sforzo e attrezzature costose per essere raccolti.

Questa scarsità è uno dei principali motivi che attualmente ostacolano il progresso nella robotica. Di conseguenza, le principali aziende e laboratori sono in feroce competizione per trovare nuovi e migliori modi per raccogliere i dati di cui hanno bisogno. Li ha portati su strade strane, come usare braccia robotiche per girare pancake per ore senza fine, guardando migliaia di ore di video chirurgici grafici estratti da YouTube o inviando ricercatori in numerosi Airbnb al fine di filmare ogni angolo nascosto. Lungo la strada, si stanno scontrando con gli stessi tipi di problemi di privacy, etica e diritto d’autore dei loro omologhi nel mondo dei chatbot.

Il nuovo bisogno di dati

Per decenni, i robot sono stati addestrati su compiti specifici, come raccogliere una palla da tennis o fare un capriola. Mentre gli esseri umani apprendono il mondo fisico attraverso l’osservazione e il tentativo ed errore, molti robot stavano imparando attraverso equazioni e codice. Questo metodo era lento, ma ancora peggio, significava che i robot non potevano trasferire le competenze da un compito a uno nuovo. Ma ora, i progressi dell’AI stanno accelerando un cambiamento che era già iniziato: permettere ai robot di insegnare a se stesso attraverso i dati. Proprio come un modello linguistico può imparare da una biblioteca piena di romanzi, i modelli dei robot possono essere mostrati a qualche centinaio di dimostrazioni di una persona che lava il ketchup da un piatto usando pinze robotiche, per esempio, e poi imitare il compito senza sapere esplicitamente cosa sia il ketchup o come aprire il rubinetto. Questo approccio sta portando progressi più rapidi e macchine con capacità molto più generali.

Ora ogni azienda e laboratorio leader sta cercando di abilitare i robot a ragionare su nuovi compiti utilizzando l’AI. Se avranno successo dipenderà dal fatto che i ricercatori possano trovare abbastanza tipi diversi di dati per affinare i modelli per i robot, così come nuovi modi per utilizzare l’apprendimento rinforzato per far loro sapere quando hanno ragione e quando sbagliano.

“Molte persone stanno cercando di capire qual è la prossima grande fonte di dati”, dice Pras Velagapudi, direttore tecnologico di Agility Robotics, che produce un robot umanoide che opera in magazzini per clienti tra cui Amazon. Le risposte alla domanda di Velagapudi aiuteranno a definire in cosa eccelleranno le macchine del domani e quali ruoli potrebbero svolgere nelle nostre case e nei nostri luoghi di lavoro.

Dati di addestramento primari

Per avere un assaggio di cosa significhi dati primari per i robot, consideriamo i metodi adottati dall’Istituto di Ricerca Toyota (TRI). In un vasto laboratorio a Cambridge, Massachusetts, dotato di braccia robotiche, computer e una serie casuale di oggetti quotidiani come paletta della polvere e fruste da cucina, i ricercatori insegnano ai robot nuovi compiti attraverso la teleoperazione, creando quelli che vengono chiamati dati di dimostrazione. Un essere umano potrebbe usare un braccio robotico per girare un pancake 300 volte in un pomeriggio, per esempio. Il modello elabora quei dati durante la notte, e spesso il robot può eseguire il compito autonomamente la mattina successiva, dice TRI. Poiché le dimostrazioni mostrano molte iterazioni dello stesso compito, la teleoperazione crea dati ricchi e precisamente etichettati che aiutano i robot a svolgere bene nuovi compiti. Il problema è che creare tali dati richiede molto tempo ed è anche limitato dal numero di costosi robot che ci si può permettere.

Per creare dati di addestramento di qualità in modo più economico ed efficiente, Shuran Song, capo del Laboratorio di Robotica e AI Incarnata presso l’Università di Stanford, ha progettato un dispositivo che può essere utilizzato con maggiore agilità con le mani e costruito a una frazione del costo. Essenzialmente, una pinza in plastica leggera può raccogliere dati mentre la usi per attività quotidiane, come rompere un uovo o apparecchiare la tavola. I dati possono poi essere utilizzati per addestrare i robot a imitare quei compiti. L’uso di dispositivi più semplici come questo potrebbe accelerare il processo di raccolta dei dati.

Lavori open-source

Di recente i roboticisti hanno individuato un altro metodo per ottenere più dati di teleoperazione: condividere ciò che hanno raccolto tra di loro, risparmiando così il laborioso processo di creazione di set di dati da soli. Il Distributed Robot Interaction Dataset (DROID), pubblicato ad aprile 2024, è stato creato da ricercatori di 13 istituti, tra cui aziende come Google DeepMind e università di primo piano come Stanford e Carnegie Mellon. Contiene 350 ore di dati generati da esseri umani che svolgono compiti che vanno dalla chiusura di una piastra per cialde alla pulizia di una scrivania. Poiché i dati sono stati raccolti utilizzando hardware comune nel mondo della robotica, i ricercatori possono utilizzarlo per creare modelli AI e poi testare quei modelli su attrezzature che hanno già.

Il lavoro si basa sul successo dell’Open X-Embodiment Collaboration, un progetto simile di Google DeepMind che ha aggregato dati su 527 competenze, raccolti da vari tipi di hardware. Il set di dati ha aiutato a costruire il modello RT-X di Google DeepMind, che può trasformare istruzioni testuali (per esempio, “Sposta la mela a sinistra della lattina di soda”) in movimenti fisici.

I modelli robotici costruiti su dati open-source come questo possono essere impressionanti, dice Lerrel Pinto, un ricercatore che dirige il Laboratorio Generale per la Robotica e l’AI presso la New York University. Ma non possono funzionare su una gamma abbastanza ampia di casi d’uso per competere con i modelli proprietari costruiti dalle principali aziende private. Quello che è disponibile tramite open source semplicemente non è sufficiente per i laboratori per costruire con successo modelli su una scala che produrrebbe il gold standard: robot che hanno capacità generali e possono ricevere istruzioni tramite testo, immagine e video.

“La più grande limitazione sono i dati”, dice. Solo le aziende ricche ne hanno abbastanza. Il vantaggio dei dati di queste aziende si sta solo consolidando nel tempo. Nella loro ricerca di più dati di addestramento, le aziende private di robotica con ampie basi di clienti hanno un’arma non così segreta: i loro stessi robot sono macchine per la raccolta di dati perpetui.

Covariant, un’azienda di robotica fondata nel 2017 da ricercatori di OpenAI, dispiega robot addestrati a identificare e prelevare articoli nei magazzini per aziende come Crate & Barrel e Bonprix. Queste macchine raccolgono costantemente filmati, che vengono poi inviati indietro a Covariant. Ogni volta che il robot non riesce a prendere una bottiglia di shampoo, per esempio, diventa un punto dati da cui imparare, e il modello migliora le sue capacità di prelevamento dello shampoo per la prossima volta. Il risultato è un enorme set di dati proprietario raccolto dalle macchine dell’azienda. Questo set di dati è parte del motivo per cui all’inizio dell’anno Covariant è stata in grado di rilasciare un potente modello base, come sono noti i modelli AI in grado di una varietà di usi. I clienti possono ora comunicare con i suoi robot commerciali proprio come si farebbe con un chatbot: è possibile fare domande, mostrare foto e istruirlo a fare un video di se stesso mentre sposta un oggetto da una cassa all’altra.

Queste interazioni dei clienti con il modello, chiamato RFM-1, producono poi ancora più dati per aiutarlo a migliorare. Peter Chen, cofondatore e CEO di Covariant, dice che esporre i robot a una serie di oggetti e ambienti diversi è fondamentale per il successo del modello. “Abbiamo robot che gestiscono abbigliamento, farmaceutici, cosmetici e generi alimentari freschi”, dice. “È uno dei punti di forza unici del nostro set di dati”. Il prossimo passo sarà portare la sua flotta in più settori e persino avere il modello AI che alimenta diversi tipi di robot, come gli umanoidi, dice Chen.

Imparare dai video

La scarsità di dati teleoperativi di alta qualità e real-world ha portato alcuni roboticisti a proporre di bypassare del tutto quel metodo di raccolta. E se i robot potessero semplicemente imparare dai video delle persone? Tali dati video sono più facili da produrre, ma a differenza dei dati teleoperativi, mancano dei punti dati “cinematici”, che tracciano i movimenti esatti di un braccio robotico mentre si muove nello spazio.

I ricercatori dell’Università di Washington e Nvidia hanno creato una soluzione alternativa, costruendo un’app mobile che permette alle persone di addestrare i robot utilizzando la realtà aumentata. Gli utenti fanno video di se stessi che completano compiti semplici con le mani, come prendere una tazza, e il programma AR può tradurre i risultati in waypoint per il software di robotica da cui imparare.

Meta AI sta perseguendo un metodo di raccolta simile su una scala più grande attraverso il suo progetto Ego4D, un set di dati di oltre 3.700 ore di video girati da persone in tutto il mondo che fanno di tutto, dal posare mattoni al giocare a basket all’impastare l’impasto del pane. Il set di dati è suddiviso per compito e contiene migliaia di annotazioni, che dettagliano cosa sta succedendo in ogni scena, come quando una pianta infestante è stata rimossa da un giardino o un pezzo di legno è completamente levigato. Imparare dai dati video significa che i robot possono incontrare una varietà molto più ampia di compiti rispetto a quanto potrebbero fare se si affidassero esclusivamente alla teleoperazione umana (immagina piegare l’impasto del croissant con braccia robotiche). Questo è importante, perché proprio come i potenti modelli linguistici hanno bisogno di dati complessi e diversificati per imparare, i roboticisti possono creare i loro modelli potenti solo se espongono i robot a migliaia di compiti.

Ottenere dati da YouTube

A tal fine, alcuni ricercatori stanno cercando di ottenere intuizioni utili da una vasta fonte abbondante ma di bassa qualità: YouTube. Con migliaia di ore di video caricate ogni minuto, non c’è carenza di contenuti disponibili. Il problema è che la maggior parte di essi è piuttosto inutile per un robot. Questo perché non è etichettato con i tipi di informazioni di cui i robot hanno bisogno, come annotazioni o dati cinematici.

A Stanford, il ricercatore Emmett Goodman ha esaminato come l’AI possa essere portata in sala operatoria per rendere le operazioni più sicure e prevedibili. La mancanza di dati è diventata rapidamente un ostacolo. Nelle operazioni laparoscopiche, i chirurghi spesso usano braccia robotiche per manipolare strumenti chirurgici inseriti attraverso incisioni molto piccole nel corpo. Quelle braccia robotiche hanno telecamere che catturano filmati che possono aiutare a formare modelli, una volta che le informazioni personalmente identificabili sono state rimosse dai dati. Nelle operazioni aperte più tradizionali, invece, i chirurghi usano le loro mani invece delle braccia robotiche. Questo produce molto meno dati per costruire modelli AI. “Questo è il principale ostacolo a perché l’AI per le operazioni aperte sia la più lenta da sviluppare”, dice. “Come si raccolgono effettivamente questi dati?”

Per affrontare questo problema, Goodman ha addestrato un modello di AI su migliaia di ore di video di operazioni aperte, riprese da medici con telecamere a mano o sovrastanti, che il suo team ha raccolto da YouTube (con informazioni identificabili rimosse).

Il suo modello, come descritto in un articolo sulla rivista medica JAMA nel dicembre 2023, potrebbe poi identificare segmenti delle operazioni dai video. Questo ha gettato le basi per la creazione di dati di addestramento utili, sebbene Goodman ammetta che gli ostacoli a farlo su larga scala, come la privacy del paziente e il consenso informato, non sono stati superati.

I possibili problemi legali

È probabile che ovunque i roboticisti si rivolgano per le loro nuove miniere di dati di addestramento, dovranno prima o poi affrontare alcune importanti battaglie legali. I produttori di grandi modelli linguistici stanno già dovendo navigare tra questioni di credito e diritto d’autore. Una causa intentata dal New York Times sostiene che ChatGPT copia lo stile espressivo delle sue storie quando genera testo. La direttrice tecnica di OpenAI ha recentemente fatto notizia quando ha detto che lo strumento di generazione video della società Sora è stato addestrato su dati pubblicamente disponibili, suscitando una critica da parte del CEO di YouTube, che ha detto che se Sora avesse imparato dai video di YouTube, avrebbe violato i termini di servizio della piattaforma.
“È un’area in cui c’è una sostanziale incertezza giuridica”, afferma Frank Pasquale, professore alla Cornell Law School. Se le aziende di robotica vogliono unirsi ad altre aziende di AI per utilizzare opere protette da copyright nei loro set di addestramento, non è chiaro se ciò sia consentito dalla dottrina del fair-use, che consente l’utilizzo di materiale protetto da copyright senza autorizzazione in una serie ristretta di circostanze.

Un esempio spesso citato dalle aziende tecnologiche e da coloro che simpatizzano con il loro punto di vista è il caso di Google Books del 2015, in cui i tribunali hanno stabilito che Google non ha violato le leggi sul copyright nel creare un database ricercabile di milioni di libri. Secondo Pasquale, questo precedente legale potrebbe far pendere la bilancia leggermente a favore delle aziende tecnologiche.
È troppo presto per dire se le sfide legali rallenteranno il razzo della robotica, poiché i casi relativi all’AI sono numerosi e ancora indecisi. Ma è sicuro che i robotici che setacciano YouTube o altre fonti video su Internet per ottenere dati di addestramento si troveranno a navigare in acque piuttosto inesplorate.


La prossima era dei robot


Non tutti i robotici ritengono che i dati siano l’anello mancante per la prossima svolta. Alcuni sostengono che se costruiamo un mondo virtuale sufficientemente buono in cui i robot possano imparare, forse non abbiamo affatto bisogno di dati di addestramento dal mondo reale. Perché fare lo sforzo di addestrare un robot che gira i pancake in una cucina reale, per esempio, se invece può imparare attraverso una simulazione digitale di una Waffle House?
I robotisti utilizzano da tempo programmi di simulazione, che replicano digitalmente gli ambienti in cui i robot si muovono, spesso con dettagli come la consistenza delle assi del pavimento o le ombre proiettate dalle luci in alto. Ma per quanto potenti, i robot che usano questi programmi per addestrare le macchine hanno sempre dovuto fare i conti con il divario tra simulazione e realtà.
Ora il divario potrebbe ridursi. Tecniche avanzate di generazione delle immagini e un’elaborazione più veloce consentono alle simulazioni di assomigliare maggiormente al mondo reale.

Nvidia, che ha sfruttato la sua esperienza nella grafica dei videogiochi per costruire il principale simulatore di robotica, chiamato Isaac Sim, ha annunciato il mese scorso che le principali aziende di robotica umanoide, come Figure e Agility, stanno utilizzando il suo programma per costruire modelli di base. Queste aziende costruiscono repliche virtuali dei loro robot nel simulatore e poi li liberano per esplorare una serie di nuovi ambienti e compiti.
Deepu Talla, vicepresidente della divisione robotica ed edge computing di Nvidia, non si tira indietro nel prevedere che questo modo di addestramento sostituirà quasi l’addestramento dei robot nel mondo reale. È semplicemente molto più economico, dice.
“Sarà un milione a uno, se non di più, in termini di quantità di cose che verranno fatte in simulazione”, dice. “Perché possiamo permetterci di farlo”.

robot intelligenza artificiale
Atlas


Ma se i modelli possono risolvere alcuni dei problemi “cognitivi”, come l’apprendimento di nuovi compiti, ci sono una serie di sfide per realizzare questo successo in una forma fisica efficace e sicura, dice Aaron Saunders, chief technology officer di Boston Dynamics. Siamo ancora lontani dal costruire hardware in grado di percepire diversi tipi di materiali, di strofinare e pulire o di applicare una forza delicata.
“C’è ancora un’enorme parte dell’equazione che riguarda il modo in cui programmare i robot per agire effettivamente su tutte queste informazioni e interagire con il mondo”, dice.
Se risolvessimo questo problema, come sarebbe il futuro della robotica? Potremmo vedere robot agili che aiutano le persone con disabilità fisiche a muoversi nelle loro case, droni autonomi che ripuliscono l’inquinamento o i rifiuti pericolosi, o robot chirurgici che fanno incisioni microscopiche, portando a operazioni con un rischio ridotto di complicazioni. Per tutte queste visioni ottimistiche, tuttavia, ne stanno già sorgendo altre più controverse. L’uso dell’intelligenza artificiale da parte delle forze armate di tutto il mondo è in aumento e l’emergere di armi autonome solleva questioni preoccupanti.


I laboratori e le aziende pronti a guidare la corsa ai dati includono, al momento, le startup di robot umanoidi amate dagli investitori (Figure AI ha recentemente ricevuto un finanziamento di 675 milioni di dollari), le aziende commerciali con flotte consistenti di robot che raccolgono dati e le aziende di droni sostenute da significativi investimenti militari. Nel frattempo, i laboratori accademici più piccoli stanno facendo di più con meno per creare insiemi di dati che rivaleggiano con quelli a disposizione delle Big Tech.
Ma ciò che è chiaro è che siamo all’inizio della corsa ai dati dei robot. Poiché la strada giusta da percorrere è tutt’altro che ovvia, tutti i robotici che si rispettino perseguono qualsiasi metodo per vedere cosa funziona.

Articoli correlati

Articolo 1 di 4