Il sistema RoboCopilot, sviluppato dai ricercatori dell’Università della California, Berkeley (Philipp Wu, Yide Shentu, Qiayuan Liao, Ding Jin, Menglong Guo, Koushil Sreenath, Xingyu Lin, Pieter Abbeel), rappresenta un passo avanti in questo campo, proponendo un sistema umano-nel-ciclo (human-in-the-loop) che permette un apprendimento interattivo efficiente.
L’apprendimento da dimostrazioni umane è un approccio efficace per insegnare ai robot complesse abilità di manipolazione. I recenti sviluppi nei metodi basati sui dati hanno mostrato risultati promettenti nell’apprendimento di queste abilità da dimostrazioni umane. Il paradigma tradizionale, noto come apprendimento imitativo passivo (behavior cloning), si basa sulla raccolta di un dataset di traiettorie dimostrative umane e sull’addestramento di una policy per imitare tali azioni.
Indice degli argomenti:
RoboCopilot, cos’è
L’insegnamento umano interattivo ha proprietà teoriche e pratiche interessanti, ma non sono ben supportate dalle interfacce uomo-robot esistenti. Il lavoro dei ricercatori di Berkeley propone un sistema innovativo che permette di passare senza soluzione di continuità dal controllo umano a quello autonomo per compiti di manipolazione bi-manuale, consentendo un apprendimento più efficiente di nuovi compiti. Ciò è possibile grazie a un sistema di teleoperazione bilaterale conforme. Attraverso simulazioni ed esperimenti hardware, dimostriamo il valore del nostro sistema in un insegnamento umano interattivo per l’apprendimento di complesse abilità di manipolazione bi-manuale.
RoboCopilot, come è fatto
Il sistema è composto da un robot mobile bimanuale con 20 gradi di libertà e un dispositivo di teleoperazione bilaterale. È pensato per consentire una facile teleoperazione e la possibilità per l’uomo di prendere il controllo in qualsiasi momento, facilitando l’apprendimento interattivo. Il nome stesso, RoboCopilot, suggerisce una cooperazione tra uomo e robot, dove il robot assume inizialmente un ruolo di assistenza prima di essere ampiamente addestrato.

in qualsiasi momento, consentendo un efficace sistema di teleoperazione human-in-the-loop per l’apprendimento interattivo.
Le sfide dell’apprendimento passivo e della teleoperazione tradizionale
Nonostante la sua semplicità, l’apprendimento imitativo passivo soffre di varie inefficienze. Richiede spesso un elevato numero di dimostrazioni, che può variare da poche decine per compiti semplici a migliaia per quelli più complessi. Inoltre, le policy addestrate su dati offline passivi possono avere difficoltà a recuperare dagli errori accumulati durante l’esecuzione online a causa del problema del “covariate shift”. Questo rende l’apprendimento di policy robuste costoso, richiedendo un processo iterativo di raccolta dati e apprendimento.
Le interfacce uomo-robot esistenti non supportano bene l’insegnamento interattivo. Telecomandi come spacemice o dispositivi VR mappano il cambio di posa relativo sull’end-effector del robot, il che non è intuitivo per l’utente che potrebbe dover intervenire rapidamente. Sebbene i dispositivi basati su esoscheletri siano stati efficaci per la raccolta passiva di dati, sincronizzare l’esecuzione della policy con un esoscheletro può essere potenzialmente non sicuro per l’operatore umano in un contesto di apprendimento interattivo come DAgger.
Nonostante i progressi negli strumenti di teleoperazione facili da usare per sistemi robotici multi-articolari, la sfida di abilitare un apprendimento interattivo intuitivo con questi strumenti rimane irrisolta.

(b) Durante l’esecuzione del robot, questo prende le osservazioni dei sensori e produce azioni. L’uomo può decidere quando passare alla teleoperazioni. Questo permette all’uomo di interrompere il robot in caso di fallimento della politica e di correggere l’errore, memorizzando i dati nel dataset.
I dati nel dataset. Il modello viene continuamente addestrato e aggiornato.
La soluzione RoboCopilot: apprendimento interattivo controllato dall’umano
RoboCopilot affronta queste sfide introducendo un sistema specificamente progettato per l’apprendimento interattivo. Il sistema si basa su due componenti chiave:
- Un framework algoritmico adattato da Human-Gated DAgger (HG-DAgger) per l’apprendimento imitativo interattivo. Questo approccio alterna l’addestramento del modello e la raccolta dei dati con una policy appresa. Durante la raccolta dati, un teleoperatore umano può intervenire e fornire feedback correttivo.
- Un hardware personalizzato composto da un manipolatore mobile, conforme e bimanuale e un dispositivo di teleoperazione bilaterale. Questo hardware consente di istanziare la pipeline di apprendimento interattivo e permette al teleoperatore di assumere il controllo del robot in modo fluido da una policy durante il processo di addestramento interattivo.
Nell’approccio proposto, l’apprendimento avviene in un ciclo stretto di dimostrazione umana, esecuzione robotica e apprendimento delle abilità. Ciò consente all’operatore umano di comprendere dove e quando la policy autonoma fallisce, fornendo dimostrazioni più mirate sui casi di fallimento del modello. Il processo inizia con la raccolta di dimostrazioni umane per pre-addestrare una policy iniziale.
Nella fase di insegnamento interattivo, la policy viene eseguita e un umano interviene in caso di fallimento. I dati raccolti durante l’intervento umano vengono aggiunti al dataset. Dopo ogni ciclo di raccolta dati, la policy viene continuamente affinata (fine-tuned) utilizzando tutti i dati raccolti. Questo permette al robot di migliorare continuamente le prestazioni e di raccogliere dati interattivi di qualità superiore.
Il continuo affinamento su distribuzioni di dati non stazionarie può causare il “catastrophic forgetting” nelle reti neurali. Tuttavia, l’affinamento continuo presenta diversi vantaggi rispetto all’addestramento da zero:
- La raccolta di campioni online dalla policy corrente allevia il covariate shift, poiché l’umano può intervenire per insegnare abilità di correzione.
- Poiché la policy viene continuamente affinata ed eseguita, l’operatore umano può osservare rapidamente le modalità di fallimento attuali e raccogliere dimostrazioni più mirate.
- L’apprendimento online riduce il tempo complessivo di addestramento.
In pratica, per ottenere la migliore policy per la distribuzione, si può utilizzare l’intero dataset interattivo raccolto per ri-addestrare una policy da zero alla fine del processo (Batched DAgger). Questo evita la non stazionarietà della distribuzione di addestramento pur sfruttando i dati interattivi.
Il sistema di teleoperazione: intuitivo e bilaterale
Il principio fondamentale del dispositivo leader di teleoperazione è quello di consentire la massima qualità di raccolta dati e la facilità d’uso per l’umano durante l’operazione e la presa di controllo. Il dispositivo di teleoperazione di RoboCopilot è una replica cinematica approssimata a basso costo del braccio robotico target, basato su GELLO. Un controller Meta Quest 2 è attaccato all’estremità dei bracci leader per servire sia come maniglia ergonomica che come dispositivo di controllo multi-input.
Il sistema utilizza il controllo attivo dei motori del braccio leader per ridurre l’affaticamento dell’utente e consentire una transizione più fluida durante la presa di controllo. La compensazione attiva della gravità allevia il peso e l’inerzia del dispositivo, permettendo all’operatore di manovrare il sistema senza sforzo eccessivo. Il controllo attivo consente anche un sistema bilaterale, dove il braccio leader può fornire feedback di forza all’utente, permettendo di sentire le forze che il robot sta sperimentando. Questo è particolarmente utile quando il robot è a contatto con l’ambiente o gestisce oggetti pesanti.
La legge di controllo PD utilizzata viene modificata per scalare le forze percepite dall’utente, evitando di fargli sentire l’intera inerzia del braccio.
Il sistema di teleoperazione include pulsanti dedicati per le utility di raccolta dati, come salvare i dati e resettare il robot, semplificando il processo di acquisizione di dati preziosi. Quando la policy autonoma è in esecuzione, la relazione leader-follower è invertita, con il dispositivo di teleoperazione che rispecchia il robot reale.
L’operatore può attivare la presa di controllo in qualsiasi momento semplicemente interagendo con il dispositivo, senza interrompere il flusso del processo poiché i dispositivi sono già sincronizzati.
Hardware di RobotCopilot: sicuro, facile da usare e accessibile
Il robot fisico RoboCopilot è stato progettato seguendo tre principi chiave: sicurezza, facilità d’uso e accessibilità.
- Sicuro: il robot deve essere sicuro per gli esseri umani, l’ambiente e sé stesso. La compliance, la capacità di rispondere a forze esterne, è cruciale per la sicurezza. Viene ottenuta passivamente tramite attuatori a quasi-direct drive (QDD) con trasmissioni backdrivable.
- Facile da usare: per facilitare l’apprendimento interattivo efficiente, il sistema necessita di un sistema di teleoperazione capace che consenta agli operatori umani di eseguire compiti complessi e ad alto contatto. Il passaggio di controllo deve essere fluido.
- Accessibile: il design mira a essere efficiente in termini di costi e semplice, pur essendo in grado di eseguire una vasta gamma di compiti quotidiani. L’accessibilità è considerata cruciale per aumentare la raccolta dati e la distribuzione dei robot nel mondo reale.
RoboCopilot in dettaglio
Il robot è un manipolatore bimanuale mobile a basso costo costruito su misura per compiti quotidiani. Dispone di bracci a 7 DOF con pinze a ganascia parallela, un torso attuabile e una base omnidirezionale, per un totale di 20 gradi di libertà. Due telecamere Realsense D405 sono montate sui polsi per fornire osservazioni visive. La compliance è ottenuta tramite attuatori QDD con ingranaggi planetari a basso rapporto. Questi attuatori, sebbene possano introdurre un certo backlash che può influenzare la precisione, sono efficaci per compiti che utilizzano l’apprendimento imitativo end-to-end con cicli di feedback stretti. Il costo totale degli attuatori per un braccio è inferiore a 2.000 dollari.
Il dispositivo di teleoperazione è una replica scalata al 70% del braccio robotico per una più facile teleoperazione umana.
La pinza è progettata per afferrare oggetti di dimensioni comuni e utilizza un meccanismo a slider-crank sfalsato per semplicità e robustezza, implementando anche il “layer jamming” per una presa efficace.
La mobilità è fornita da una base omnidirezionale AgileX Ranger Mini 2, e il robot è montato su un gantry per il movimento verticale. L’intero sistema mobile è alimentato da batterie di bordo.

Il picking industriale mobile considera solo la trave lunga, ma il contenitore è più lontano e il robot deve guidare la base prima di posizionarlo.
Prima di posizionarlo, il robot deve guidare la base. Abbiamo etichettato le pose delle travi e del contenitore per garantire la coerenza durante la valutazione.
Risultati sperimentali: i dati interattivi migliorano l’apprendimento
Gli esperimenti condotti sia in simulazione (sul benchmark Robomimic) che nel mondo reale (con compiti di manipolazione industriale e in cucina) dimostrano il valore del sistema RoboCopilot per l’apprendimento interattivo continuo. L’obiettivo principale degli esperimenti è misurare come la raccolta interattiva di dati influenzi la qualità dei dati raccolti, valutando le prestazioni finali della policy.
I risultati della simulazione su compiti come Can, Square e Transport mostrano che le varianti DAgger proposte (Continual DAgger e Batched DAgger) ottengono prestazioni superiori rispetto ai baseline di behavior cloning (BC-H e BC-P). Anche con un numero limitato di traiettorie iniziali (10 per il warmup), l’aggiunta di traiettorie corrette tramite DAgger migliora significativamente le prestazioni.
Il Batched DAgger, che addestra una policy da zero utilizzando tutti i dati raccolti interattivamente, supera quasi sempre la variante Continual DAgger, suggerendo che l’apprendimento interattivo migliora la qualità dei dati raccolti.
Gli esperimenti nel mondo reale, inclusi il prelievo di parti industriali, il trasporto di parti industriali e un compito a lungo orizzonte in cucina (preparare il pomodoro), confermano queste conclusioni. I dati interattivi portano a una maggiore qualità dei dati rispetto alla raccolta passiva. La percentuale di completamento del compito aumenta costantemente con l’aumentare dei dati interattivi raccolti, e la necessità di intervento umano diminuisce di conseguenza.
In particolare, per il compito di prelievo industriale, le policy addestrate con Continual DAgger e Batched DAgger raggiungono tassi di successo superiori rispetto all’Offline BC con lo stesso numero di traiettorie. Per il trasporto di parti industriali, Batched DAgger raggiunge le migliori prestazioni.
Nel compito in cucina a lungo orizzonte, Batched DAgger non solo risulta in prestazioni migliori nel completamento dell’intero compito, ma richiede anche meno passaggi teleoperati dall’umano per raggiungere tali prestazioni rispetto all’Offline BC. L’efficienza è sottolineata dal fatto che l’umano deve operare solo dopo un fallimento della policy.
Conclusioni: le limitazioni di RoboCopilot
RoboCopilot dimostra con successo la capacità di insegnare al robot complesse abilità di manipolazione bimanuale, a lungo orizzonte e ad alto contatto utilizzando l’apprendimento interattivo umano-nel-ciclo. Il sistema sottolinea il potenziale di interfacciamento fluido tra un operatore umano e una policy autonoma per l’insegnamento interattivo.
Tuttavia, il sistema presenta delle limitazioni. La necessità di un intervento umano continuo può essere intensiva in termini di risorse, richiedendo un operatore esperto per supervisionare e correggere le azioni del robot. Questa dipendenza potrebbe limitare la scalabilità in ambienti dove tale competenza non è disponibile o il compito è troppo difficile anche solo da teleoperare.
Inoltre, sebbene il sistema miri a essere conveniente, i costi iniziali di installazione e manutenzione potrebbero essere proibitivi per organizzazioni o laboratori più piccoli a causa dei numerosi componenti personalizzati.
L’uso di ingranaggi planetari, pur essendo vantaggioso per la compliance e il costo, introduce un certo backlash che potrebbe influenzare la precisione nei compiti di manipolazione fine.
Il lavoro futuro si concentrerà sul miglioramento della scalabilità e della facilità di distribuzione di RoboCopilot in diversi ambienti del mondo reale.