Chatbot AI, progressi e limiti

Il mercato è in grande sviluppo su scala globale e in Italia. Secondo una ricerca dell’Osservatorio Artificial Intelligence della School of Management del Politecnico di Milano il giro d’affari è di 380 milioni di euro.

L’impiego delle chatbot è andato progressivamente crescendo in questi anni. Questo tipo di applicazioni software AI, utilizzate per interagire con le conversazioni umane in modo naturale, sono diventate di uso comune in molteplici settori per vari scopi.

Ciò nonostante, lo sviluppo delle chatbot AI incontra difficoltà dal momento che anche i sistemi più avanzati presentano ancora limiti, problemi irrisolti e inadeguatezze.

Indice degli argomenti:

Dimensione e fattori del mercato chatbot

Il mercato chatbot è in grande sviluppo su scala globale, così come in Italia, secondo una ricerca dell’Osservatorio Artificial Intelligence della School of Management del Politecnico di Milano, che fotografa una più complessiva crescita del settore dell’intelligenza artificiale, in grado di movimentare un giro d’affari di 380 milioni di euro.

A dare impulso alla domanda di chatbot AI in comparti che vanno dalla finanza all’intrattenimento, dalla sanità all’educazione e dal retail al benessere, è la richiesta di servizi di assistenza attivi 24 h su 24 h.

Oltre che per armonizzare con le esigenze della clientela, le aziende si dotano di questo genere di programmi anche per ridurre in modo sostanziale i costi, come ha messo in evidenza uno studio di Juniper Research.

D’altro canto, sono sempre più numerose le piattaforme e gli strumenti per la creazione di chatbot sempre più accessibili via applicazioni mobili e sofisticati, malgrado la complessità dell’attività AI, di apprendimento automatico e di elaborazione del linguaggio naturale, che serve per implementare e rendere utili i software conversazionali.

Il mercato è, inoltre, arricchito da soluzioni differenti, offerte da una platea crescente di aziende, grandi o piccole, e startup, come Kore.ai, Omilia, Rasa, Senseforth.ai, Verint e Yellow.ai.

L’esperienza delle big tech

Dalle big tech, in particolare, emerge una interessante esperienza di lavoro sul campo che consente di verificare progressi e limiti delle chatbot AI.

Facebook, per prima, sin dall’agosto 2015 ha lanciato l’assistente virtuale, chiamato M, per la piattaforma Messenger. Nelle intenzioni dei creatori, il progetto aveva l’ambizione di superare gli ambiti e le performance ristretti dei bot conversazionali precedenti, proponendo un nuovo tipo di software AI (memory network) di apprendimento supervisionato, in grado di compiere varie attività come quella di prenotazione, acquisto beni online, organizzazione viaggi, o consegna pacchi. Il tentativo, tuttavia, si è concluso con un insuccesso perché M, abbandonato dopo 3 anni di test, suggeriva spesso all’utente risposte testuali inadeguate e non pertinenti.

Senonché, i ricercatori di Meta (Facebook) hanno provato di nuovo a sviluppare una chatbot AI testuale con BlenderBot, giunta alla versione 2.0.

In questo caso, si tratta di un modello di open-source chatbot pre-addestrato su dataset Wizard of Wikipedia, basato sul nuovo approccio Retrieval Augmented Generation, più progredito di M, ma in cui i problemi di vecchia data dell’apprendimento automatico si ripresentano, frustrando l’ambizione originaria di realizzare un sistema capace di una conversazione più naturale fondendo più aspetti e abilità ed essere empatico, smart e con una personalità.

Gli stessi ricercatori di Meta sono costretti ad ammettere che BlenderBot 2.0 non è in grado di comprendere bene cosa sia più giusto e appropriato nella conversazione e che, nonostante si costruisca una memoria a lungo termine, non è capace di apprendere dai suoi errori.

Chatbot targate Google

Big G, da parte sua, ha sviluppato LaMDA (Language Models for Dialog Applications) è un modello basato su architettura delle reti neurali Transformer (come Bert e GPT-3), mediante cui vengono migliorati i benchmark scientifici standard in ambito Natural language processing, richiedendo un aumento significativo delle risorse di calcolo, disponibile open-source grazie a Google Research.

Il sistema è stato addestrato per tenere un dialogo con gli umani, attingendo a 1,56 trilioni di parole da circa 3 miliardi di documenti, oltre 1 miliardo di conversazioni, e più di 13 miliardi di dialogato trascritto. L’attività di training per la versione più performante è durata due mesi con un impiego di processori TPU di terza generazione, acceleratori AI costruiti appositamente da Google.

Il risultato è che LaMDA può dialogare su tanti argomenti rispondendo più puntualmente alle domande poste dall’interlocutore umano anche in modo da intrattenere una conversazione più naturale e fluida con battute e termini più convincenti e sensati, simulando meglio lo stile umano.

Le capacità della chatbot di Google sono state illustrate dal Ceo di Big G, Sundar Pichai, in un video dimostrativo nel quale LaMDA riesce a impressionare impersonando la parte del pianeta Plutone.

Watch Google's AI LaMDA program talk to itself at length (full conversation)

Video: Google LaMDA

Nondimeno, il sistema ha delle grosse lacune e per esempio, vestendo i panni del monte Everest, i ricercatori hanno scoperto che in molte risposte fornite (un terzo) i fatti non sono risultati veri. In un altro test, LaMDA ha fallito nel rispondere a domande su temi musicali 1 volta su 10. Per i ricercatori di Google sono molti i passi in avanti nel lavoro svolto sulla loro chatbot AI rispetto alle tre metriche che ne misurano i miglioramenti ma ancora resta molto da fare. Soprattutto sul piano della sicurezza, nell’evitare che il modello fornisca risposte con contenuti inappropriati o violenti, pregiudizi e stereotipi di odio, e della capacità del software di essere accurato e fare affermazioni fondate su dati reali. Rispetto a queste metriche, il divario con il “livello umano” rimane lontano dall’essere colmato.

Modelli Deepmind

Anche Deeepmind si è cimentata con la sfida chatbot AI, sviluppando Gopher. È un modello di elaborazione del linguaggio naturale a 280 miliardi di parametri, basato su architettura Transformer, e addestrato su un dataset di oltre 10 TB, chiamato Massive Text, con contenuti di testo ripresi, e filtrati, da C4, Wikipedia, libri, articoli, pagine web e GitHub. Gopher, che è in grado come LaMDA di calarsi nella parte di altri soggetti come la matematica Ada Lovelace, supera le valutazioni dei migliori programmi nella performance di 100 compiti chiave su 124 analizzati. In base alla ricerca di Deepmind, l’aumento di scala di un modello migliora le prestazioni in aree come la comprensione del testo, il fact-checking, e l’identificazione di un linguaggio “tossico” ma i progressi non si verificano in ambiti logici e in compiti in cui si deve usare il common-sense per trarre inferenze.

D’altra parte, i rischi insiti nei modelli Nlp sono ancora molti e a diversi livelli. Due aree, secondo i ricercatori, sono tra le più critiche : la prima riguarda l’insufficienza degli strumenti di benchmarking per impedire l’output di disinformazione e la seconda la mitigazione del rischio che concerne gli stereotipi sociali dannosi riprodotti dai software AI.

Conclusioni

I sistemi più all’avanguardia di chatbot AI, ancorché evoluti, stentano ad avere una conversazione simile a quella umana senza intoppi. I modelli presentano lacune e difetti importanti e in settori sensibili come la sanità potrebbero causare gravi danni nell’interazione con gli utenti. Per non parlare degli aspetti più legati a temi controversi come religione, attività illecite (uso di sostanze stupefacenti), morale e politica o di rischi connessi a eventuali attacchi di soggetti malintenzionati che potrebbero abusarne per fini malevoli di manipolazione e disinformazione.

Chatbot AI, progressi e limiti

Dimensione e fattori del mercato chatbot

L’esperienza delle big tech

Chatbot targate Google

Video: Google LaMDA

Modelli Deepmind

Conclusioni

Articoli correlati

Bard, tutto sul chatbot di Google

ChatGPT di OpenAI: tutto sul chatbot più famoso al mondo

Codice Rss

Codice Rss