News

Il robot impara da solo a camminare, addio al training

Ricercatori dell’Università della California hanno sviluppato un algoritmo di apprendimento rinforzato, chiamato Dreamer, che consente alla macchina di imparare cosa fare, senza il ricorso a un addestramento preventivo

Pubblicato il 18 Lug 2022

Dreamer robot

Si chiama Dreamer l’algoritmo messo a punto da Danijar Hafner e dai suoi colleghi dell’Università della California, Berkeley: utilizza le esperienze passate per costruire un modello del mondo circostante. Un divertente esempio di ciò che Dreamer può far fare a un robot è visibile in un video diffuso su YouTube. Grazie al machine learning e a tecniche di apprendimento rinforzato, Dreamer consente al cane robot di condurre calcoli per tentativi ed errori, prevedendo potenziali risultati futuri delle sue potenziali azioni. Ciò gli consente di imparare più velocemente; una volta che il robot ha imparato a camminare, continua a imparare ad adattarsi a situazioni inaspettate, come resistere all’essere rovesciato da un bastone.

Ciò che rende speciale il robot a quattro zampe è che ha imparato a fare tutto questo da solo, senza che gli venisse mostrato cosa fare in una simulazione al computer. Il team di Hafner ha utilizzato lo stesso algoritmo per addestrare con successo altri tre robot, tra cui uno in grado di raccogliere palle e spostarle da un vassoio all’altro.

Learning to Walk in the Real World in 1 Hour (No Simulator)

Learning to Walk in the Real World in 1 Hour (No Simulator)

Guarda questo video su YouTube

Video

Apprendimento automatico rinforzato senza training

Danijar Hafner e i suoi colleghi dell’Università della California, Berkeley hanno utilizzato la tecnica di intelligenza artificiale di apprendimento rinforzato, che addestra gli algoritmi premiandoli per le azioni desiderate, per addestrare il robot a camminare da zero nel mondo reale.

Tradizionalmente, i robot vengono addestrati in un simulatore di computer prima di tentare di fare qualsiasi cosa nel mondo reale. Ad esempio, le gambe robotiche chiamate Cassie hanno imparato a camminare usando l’apprendimento per rinforzo, ma solo dopo averlo fatto in una simulazione.

“Il problema è che il simulatore non sarà mai preciso come il mondo reale. Ci saranno sempre aspetti del mondo che mancano”, afferma Hafner, che ha lavorato con i colleghi Alejandro Escontrela e Philipp Wu al progetto e ora è uno stagista presso DeepMind. Adattare le lezioni dal simulatore al mondo reale richiede anche un’ingegneria extra, dice.

“Insegnare ai robot attraverso tentativi ed errori è un problema difficile, reso ancora più difficile dai lunghi tempi di formazione che tale insegnamento richiede”, afferma Lerrel Pinto, assistente professore di informatica presso la New York University, specializzato in robotica e apprendimento automatico. Dreamer dimostra che il deep reinforcement learning e i modelli mondiali sono in grado di insegnare ai robot nuove abilità in un lasso di tempo davvero breve, dice.

Jonathan Hurst, professore di robotica presso l’Oregon State University, afferma che i risultati, che non sono ancora stati sottoposti a revisione paritaria, chiariscono che “l’apprendimento per rinforzo sarà uno strumento fondamentale nel futuro del controllo dei robot”.

Rimuovere il simulatore dall’addestramento dei robot ha molti vantaggi. L’algoritmo potrebbe essere utile per insegnare ai robot come apprendere le abilità nel mondo reale e adattarsi a situazioni come guasti hardware, sostiene Hafner: ad esempio, un robot potrebbe imparare a camminare con un motore malfunzionante in una gamba.

L’approccio potrebbe anche avere un enorme potenziale per cose più complicate come la guida autonoma, che richiedono simulatori complessi e costosi, afferma Stefano Albrecht, assistente professore di intelligenza artificiale presso l’Università di Edimburgo. Una nuova generazione di algoritmi di apprendimento per rinforzo potrebbe “raccogliere super rapidamente nel mondo reale come funziona l’ambiente”, afferma Albrecht.

Vantaggi ma anche problemi irrisolti

Questa tecnica lascia comunque alcuni grandi problemi irrisolti, secondo Pinto.

Con l’apprendimento per rinforzo, gli ingegneri devono specificare nel loro codice quali comportamenti sono buoni e sono quindi ricompensati e quali comportamenti sono indesiderabili. In questo caso, girarsi e camminare è buono, mentre non camminare è male. “Un robotico dovrà farlo per ogni attività o problema che vuole che il robot risolva”, afferma Pinto. Questo è incredibilmente dispendioso in termini di tempo ed è difficile programmare comportamenti per situazioni impreviste.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 4