approfondimento

KnowNo: gli LLM riscrivono le regole della robotica

Un progetto nato dalla collaborazione di Andy Zeng di Google DeepMind e Anirudha Majumdar della Princeton University che dota i robot di un’intuitiva capacità di riconoscere l’incertezza e richiedere assistenza

Pubblicato il 13 dic 2023

Andrea Viliotti

B2B Data-Driven Lead Generation Specialist

KnowNo è un progetto nato dalla collaborazione di menti brillanti come Andy Zeng di Google DeepMind e Anirudha Majumdar della Princeton University che trasforma il panorama della robotica, dotando i robot di un’intuitiva capacità di riconoscere l’incertezza e richiedere assistenza. Questo sistema all’avanguardia apre la strada a una nuova era di interazioni robot-umano, caratterizzate da intelligenza e sicurezza migliorata in ambienti complessi.

Nell’emozionante mondo della robotica, ci troviamo di fronte a una svolta epocale: la fusione tra la sofisticata tecnologia dei modelli di linguaggio di grandi dimensioni (LLMs) e la robotica. Immaginate un futuro dove i robot non solo eseguono compiti, ma comprendono e interpretano le nostre istruzioni con un’intelligenza e una precisione senza precedenti. Proprio in questo scenario si inserisce il progetto “KnowNo”.

Indice degli argomenti:

Le sfide per la robotica oggi

La sfida che la robotica moderna deve affrontare è monumentale: come può un robot interpretare comandi vaghi o generali, una questione resa ancora più complessa dalla necessità di una comprensione del “senso comune”? Per esempio, immaginate un robot incaricato di mettere una ciotola nel microonde. Semplice, giusto? Ma cosa succede se sceglie una ciotola di metallo, assolutamente non adatta per il microonde? Questo esempio non è solo un divertente aneddoto, ma sottolinea un problema serio: come possono i robot gestire l’incertezza e interpretare le istruzioni in modo corretto e sicuro?

Qui entra in gioco KnowNo, un approccio innovativo che trasforma il processo decisionale nei robot integrando i grandi modelli linguistici (LLM). KnowNo impiega la teoria avanzata della previsione conformale per gestire e allineare l’incertezza nelle strategie decisionali dei robot, basate sull’interpretazione di dati e comandi tramite LLM. Questo significa che i robot, utilizzando KnowNo, sono in grado di elaborare e adattare i loro piani d’azione – ovvero le sequenze di passi o scelte operative – in maniera più sofisticata e aderente al contesto, anche di fronte a situazioni ambigue o istruzioni non chiare.

Le prestazioni di KnowNo sono state messe alla prova in una serie di esperimenti con robot reali e simulati. I risultati? Semplicemente straordinari. KnowNo ha superato i metodi tradizionali, elevando notevolmente l’efficienza e l’autonomia dei robot. La sua capacità di affrontare diverse forme di ambiguità, dalle spaziali alle numeriche, fino alle preferenze umane, dimostra la sua versatilità ed efficacia nel mondo reale.

Con KnowNo, i robot non sono più semplici esecutori di compiti precisi. Diventano entità intelligenti, capaci di gestire istruzioni imprecise e di avvicinarsi a un livello di comprensione del senso comune paragonabile a quello umano. Questo rappresenta un passo significativo verso un futuro in cui i robot saranno più autonomi, affidabili e capaci di operare in ambienti dinamici e non strutturati.

Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners

Guarda questo video su YouTube

Video: Robot che chiedono aiuto

KnowNo, l’integrazione dei LLM nella robotica

KnowNo rappresenta un salto evolutivo nella programmazione robotica, ridefinendo profondamente il modo in cui i robot interagiscono e interpretano il loro ambiente. KnowNo simboleggia un’integrazione avanzata dei Large Language Models (LLM) nel settore della robotica. Questo approccio innovativo rivoluziona il processo decisionale dei robot nelle attività quotidiane, potenziando la loro capacità di comprensione e reazione in modo più umano e contestualizzato.

Immaginate un robot al lavoro, magari in una cucina, dove ogni scelta può avere un impatto significativo. Grazie a KnowNo, questo robot non si limita a seguire ciecamente le istruzioni. Invece, utilizza un metodo sofisticato, basato sulla teoria della previsione conforme, che gli permette di quantificare e comprendere la propria incertezza. La teoria della previsione conforme è un approccio statistico relativamente recente, sviluppato per fornire previsioni affidabili e quantificabili in vari campi, dalla finanza all’intelligenza artificiale.

La teoria della previsione

La teoria della previsione conforme può essere spiegata in termini più semplici così: questa teoria si basa sull’uso di metodi statistici per capire quanto possiamo fidarci di una previsione su un evento futuro. Per farlo, si calcola un “intervallo di previsione”. Questo intervallo rappresenta una gamma entro la quale ci aspettiamo che avvenga l’evento predetto, con una certa probabilità. Ad esempio, se un modello prevede che un robot completi un compito con un intervallo di previsione del 95%, significa che siamo abbastanza sicuri, per il 95%, che il robot riuscirà in quel compito e che il risultato si troverà all’interno di quell’intervallo.

Nel contesto di KnowNo e della robotica, la teoria della previsione conforme viene applicata per valutare e gestire l’incertezza nelle decisioni dei robot. Quando un robot dotato di KnowNo deve prendere una decisione, la teoria della previsione conforme aiuta a quantificare quanto quella decisione sia affidabile. Se l’incertezza è troppo alta, il robot può scegliere di richiedere ulteriori informazioni o assistenza umana, piuttosto che procedere con un’azione potenzialmente errata o rischiosa.

Questa capacità di valutare e gestire l’incertezza non solo aumenta l’affidabilità e la sicurezza dei robot, ma li rende anche più adatti a operare in ambienti complessi e dinamici, dove le decisioni devono spesso essere prese in presenza di informazioni incomplete o ambigue.

Questo non è solo un semplice passo avanti, ma una rivoluzione nel modo in cui i robot “pensano” e agiscono.

Un esempio pratico

Per esempio, consideriamo il compito di servire il caffè. Un robot senza KnowNo potrebbe versare semplicemente il caffè nella prima tazza che trova, senza considerare se sia la scelta migliore. Con KnowNo, invece, il robot esamina un insieme di possibili azioni (come scegliere tra diverse tazze) e valuta la probabilità di efficacia, determinando così la scelta più adatta. E se il dubbio persiste? Non procede alla cieca, ma chiede aiuto, proprio come farebbe un umano in una situazione incerta.

Questa capacità di interagire con gli umani in situazioni complesse o ambigue rappresenta un salto qualitativo nell’efficienza e nella sicurezza delle decisioni robotiche. Con KnowNo, i robot non sono più macchine isolate che seguono ciecamente le istruzioni, ma diventano collaboratori intelligenti, capaci di adattarsi a diversi contesti e livelli di rischio.

E non è tutto. KnowNo brilla anche in scenari complessi che richiedono una serie di azioni sequenziali. In questi contesti multi-step, fornisce garanzie statistiche sul completamento dei compiti, assicurando che l’intervento umano sia richiesto solo quando strettamente necessario.

Questo approccio non è solo un passo avanti per la robotica; è una vera e propria svolta che apre la strada a una nuova generazione di robot autonomi e affidabili. Con KnowNo, i robot superano i metodi tradizionali, iniziando navigare il mondo con una comprensione e un’intelligenza che fino a poco tempo fa sembravano appannaggio esclusivo degli esseri umani.

Metodi convenzionali della robotica

In un mondo in cui la robotica sta facendo passi da gigante, è affascinante esplorare come i metodi tradizionali hanno posto le basi per le rivoluzionarie innovazioni odierne. Questi metodi, spesso descritti come “convenzionali”, hanno giocato un ruolo cruciale nell’evoluzione della robotica, ma rispetto a tecnologie all’avanguardia come KnowNo, si presentano più rigidi e meno adattabili.

Per comprendere meglio, immaginiamo un robot come un attore in un teatro, dove ogni movimento e parola è scrupolosamente scritto in uno script. Questo è il cuore della programmazione rigida. Un robot programmato rigidamente segue istruzioni dettagliate, senza spazio per improvvisazione. Se gli viene detto di sollevare un oggetto da una posizione specifica, lo fa senza deviare dal programma, anche se l’oggetto viene spostato. In scenari prevedibili, questo approccio funziona bene, ma in situazioni inaspettate, il robot può trovarsi in difficoltà.

Un altro aspetto dei metodi tradizionali è il controllo basato su regole. Come un gioco di “se… allora…” (if…then), questi sistemi seguono regole predefinite per decidere le azioni. Per esempio, se un robot di pulizia rileva sporcizia, inizia a pulire. Questo metodo è efficace per routine semplici ma non per contesti complessi, dove le regole possono non bastare.

Nel mondo industriale, l’automazione fissa e la robotica industriale sono un pilastro. Pensate ai robot nelle linee di assemblaggio, ripetendo lo stesso compito con precisione millimetrica. Sono ottimizzati per compiti specifici ma mancano di flessibilità per adattarsi a nuove situazioni o compiti.

La localizzazione e mappatura simultanea (SLAM) è un’altra tecnica fondamentale. È come se il robot avesse una mappa e una bussola per navigare in luoghi sconosciuti. Questi metodi permettono ai robot di orientarsi, ma possono essere limitati quando l’ambiente cambia rapidamente.

I sensori e la visione artificiale sono gli occhi dei robot. Attraverso di essi, i robot interpretano l’ambiente, ma nei metodi più tradizionali, questa interpretazione può essere basica, rendendo difficile per i robot capire scenari complessi.

Gli algoritmi di pianificazione del percorso operano come veri e propri navigatori GPS per i robot, delineando itinerari da un punto di partenza a una destinazione. Tuttavia, questi sistemi possono incontrare difficoltà in ambienti dinamici, dove ostacoli inattesi richiedono un’adattabilità continua e una revisione del percorso.

Le tradizionali tecniche di robotica hanno posto le basi per l’innovazione attuale. Con l’avvento di tecnologie avanzate come KnowNo, che integrano l’apprendimento profondo e modelli linguistici sofisticati, la robotica sta inaugurando un’era nuova. In questa era, i robot non si limitano a eseguire compiti, ma sono in grado di comprendere, interpretare e adattarsi, facendo un passo avanti verso un’interazione più naturale e intuitiva con l’ambiente circostante

I test su KnowNo: le Winograd schemas

I test condotti sul sistema KnowNo hanno affrontato una varietà di sfide di ambiguità, dimostrando la versatilità e l’efficacia del sistema in scenari complessi. Queste ambiguità includevano situazioni spaziali, numeriche, basate sulle preferenze umane e le cosiddette Winograd schemas. Le Winograd schemas sono specifici test di comprensione del linguaggio, progettati per valutare la capacità di un’intelligenza artificiale di interpretare frasi ambigue utilizzando il contesto e il ragionamento. Sono frasi brevi che contengono una particolare ambiguità risolvibile solo attraverso la comprensione del contesto e delle relazioni implicite, mettendo alla prova la capacità di un sistema AI di comprendere il linguaggio in maniera simile a un essere umano.

Questa capacità di affrontare e risolvere situazioni ambigue indica un significativo progresso nella comprensione del linguaggio naturale e nella modellazione dell’incertezza, due aspetti critici per l’evoluzione dell’autonomia robotica nel mondo reale.

Questo sistema lavora efficacemente con i LLM senza necessità di fine-tuning specifico, suggerendo un approccio promettente e leggero nella modellazione dell’incertezza, che può essere scalato con le crescenti capacità dei modelli di base.

L’avanguardia dei LLM nella robotica: i casi Google e Microsoft

Nel contesto delle innovazioni nel campo della robotica, i progressi compiuti da Google e Microsoft nell’integrazione dei Large Language Models (LLM) nella programmazione dei robot evidenziano un allineamento con la visione innovativa del progetto KnowNo. Queste due aziende leader nel settore tecnologico hanno mostrato notevoli avanzamenti: Google con il suo Robotics Transformer 2 (RT-2) e Microsoft con l’implementazione di ChatGPT nella robotica.

Google DeepMind ha introdotto RT-2, un modello AI basato su visione, linguaggio e azione per il controllo dei robot. RT-2 utilizza un LLM ottimizzato per generare comandi di controllo del movimento. È in grado di eseguire compiti non esplicitamente inclusi nei suoi dati di addestramento, migliorando i modelli di base fino a tre volte nelle valutazioni di competenze emergenti.

D’altra parte, Microsoft ha sperimentato l’uso di ChatGPT per controllare i robot, dimostrando come ChatGPT possa utilizzare le funzioni dell’API fornita per ragionare e impartire comandi ai robot. Questo rappresenta un passo avanti significativo nell’efficacia operativa dei robot in ambienti fisici, nonostante le limitazioni ancora presenti in termini di ragionamento spaziale e decisionale.

Inoltre, Microsoft ha esteso le capacità di ChatGPT nel campo della robotica, permettendo agli utenti di fornire feedback ad alto livello al modello LLM, facilitando così il controllo di diversi tipi di robot per una varietà di compiti. Questo nuovo approccio alla robotica mostra come ChatGPT possa generare codice per scenari robotici diversi, risolvendo puzzle robotici e supportando compiti complessi in diversi domini.

Questi sviluppi mostrano come i LLM possano migliorare significativamente l’autonomia, l’affidabilità e l’adattabilità dei robot, concetti chiave del progetto KnowNo. Attraverso l’implementazione di LLM, i robot non sono più limitati a seguire istruzioni predefinite, ma sono in grado di interpretare e reagire a compiti nuovi e non prevedibili, un passo essenziale verso un futuro in cui robot e umani collaborano più strettamente. Tuttavia, come sottolineato nel progetto KnowNo, questi avanzamenti portano anche sfide significative, tra cui la necessità di una supervisione umana attenta per garantire che le azioni dei robot siano sicure e controllate, soprattutto in situazioni critiche.

Questa evoluzione nel campo della robotica, guidata dall’innovativa integrazione dei Large Language Models (LLM) nell’ambito dell’intelligenza artificiale, sta aprendo nuove frontiere nell’interazione e nel controllo dei robot. L’efficienza e l’intuitività raggiungono livelli precedentemente inimmaginabili. Stiamo entrando in un’era in cui i robot non solo eseguono compiti complessi, ma imparano e si adattano dinamicamente, un progresso che richiede un’attenta considerazione dell’importanza della sicurezza e della responsabilità etica.

KnowNo, implicazioni etiche e sociologiche

L’introduzione di KnowNo nel panorama tecnologico rappresenta un momento di svolta, dove l’interazione tra umani e robot entra in una nuova era. Immaginate un futuro in cui i robot non sono più semplici esecutori di compiti, ma collaboratori intelligenti, capaci di interpretare le nostre esigenze con una precisione quasi umana. Tuttavia, questa prospettiva affascinante porta con sé una serie di interrogativi e sfide che meritano un’analisi approfondita.

Uno degli aspetti più delicati riguarda l’impatto di KnowNo sul mercato del lavoro. Prendiamo, ad esempio, il settore manifatturiero: i robot potrebbero assumere ruoli che prima richiedevano un intervento umano, aumentando l’efficienza ma, allo stesso tempo, potenzialmente riducendo la domanda di lavoro manuale. Ciò solleva questioni fondamentali: come garantire che il progresso tecnologico non si traduca in una crescente disoccupazione? E come possiamo preparare la forza lavoro per questa nuova realtà?

Le considerazioni etiche e le differenze culturali e i contesti sociali sono altrettanto importanti. KnowNo introduce una dimensione inedita nella robotica, dove la capacità di chiedere chiarimenti di fronte ad ambiguità costituisce il fulcro della sua innovatività. Questa caratteristica pone questioni etiche distinte rispetto alla robotica tradizionale. Se un robot può richiedere chiarimenti, come assicurarsi che le sue domande non violino la privacy o non siano inappropriate in certi contesti culturali? Ad esempio, un robot che interagisce con diversi gruppi etnici potrebbe dover evitare domande che potrebbero essere considerate sensibili in alcune culture.

Ciò va oltre la semplice traduzione di lingue o comandi, richiedendo una comprensione profonda delle norme e dei valori sociali di ogni cultura. Un robot potrebbe dover imparare a formulare domande in modi che siano culturalmente appropriati, evitando fraintendimenti o offese.

KnowNo porta la robotica in un territorio nuovo, dove l’adattabilità e l’interazione richiedono una riflessione approfondita sulle implicazioni etiche e culturali, delineando un futuro in cui i robot non sono solo strumenti, ma partecipanti attivi nella nostra società.

Conclusioni

KnowNo apre una realtà affascinante: stiamo assistendo a una rivoluzione nel campo della robotica, guidata dall’integrazione dell’intelligenza artificiale in modi mai visti prima.

Questo sviluppo non è solo un passo avanti nella tecnologia robotica; è un cambiamento paradigmatico nel modo in cui interagiamo e collaboriamo con le macchine. Con KnowNo, stiamo entrando in un’era in cui l’intelligenza artificiale e la robotica diventano parte integrante della nostra vita, cambiando il nostro mondo in modi che oggi possiamo solo cominciare a immaginare. Questo è l’inizio di una nuova era, un’era di possibilità infinite, dove la tecnologia non solo ci assiste, ma collabora con noi.

@RIPRODUZIONE RISERVATA