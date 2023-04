I Large Language Model hanno il pregio di essere utilizzabili per diversi scopi e le imprese ne faranno un uso sempre più ampio per smarcarsi le une dalle altre. Non hanno una nozione di cognizione ma sono a loro modo sorprendenti e molto più antichi di quanto si possa pensare [...]

Quello dei Large Language Model (LLM) è un tema talmente vasto da rappresentare una difficoltà oggettiva per chiunque debba scriverne in modo succinto. Parte dell’ampiezza di questo argomento proviene da un retaggio che si estende ben oltre il momento in cui se ne è cominciato a parlare. Esisteva anche prima che gli si desse un nome, benché i suoi archetipi siano stati usati in modo del tutto diverso rispetto al modo in cui il LLM viene usato oggi.

Per capire quali usi si possono fare di un LLM occorre capire cos’è un modello di linguaggio a prescindere dalla sua grandezza (la traduzione in italiano di Large Language Model è modello di linguaggio di grandi dimensioni).

Cosa si intende con LLM, Large Language Model

Un LLM è un algoritmo Deep learning capace di riconoscere contenuti, generarli, riassumerli, tradurli e persino prevederli. Per farlo ha bisogno di big data, ossia enormi set di dati. I LLM hanno riguadagnato una certa celebrità grazie a ChatGPT ma gli occhi più esperti sanno che l’hype è in realtà iniziato con GPT-3, modello di linguaggio che risale al 2020 e che ha restituito un risultato olistico ma, a ben vedere, neppure troppo sorprendente.

Infatti, osservando GPT-3 i ricercatori dei OpenAI che lo hanno creato, si sono resi conto che faceva più di quanto si aspettassero, per esempio riuscendo a scrivere porzioni di codice e, in qualche modo, imparando dalle proprie attività. Niente di stupefacente né di senziente.

C’è quindi un rapporto stretto tra LLM e contenuti di diverso tipo: testo, immagini, audio, video, ma non solo. Dall-e 2 è un modello LLM e viene usato per scoprire nuove proteine, ChatGPT è un modello LLM e viene usato anche per scrivere software. Da ciò si evince che il termine LLM (e la sua traduzione) rappresenta una limitata etichetta rispetto a ciò che questi modelli sono in grado di fare.

Storia dei Large Language Model

Prima che si arrivasse ai LLM come li conosciamo oggi, si è partiti dallo Statistical language model, che ha attirato l’attenzione delle comunità scientifiche a partire dal 1980. Un modello secondo il quale, grazie alla statistica, è stato possibile aggiungere singole parole per continuare una frase.

Nella letteratura di settore si trova spesso un riferimento a Eliza, un chatbot elaborato nel 1966 da Joseph Weizenbaum. Un esperimento interessante ma lontano dall’essere considerato in grado di leggere e comprendere la conversazione, si limitava a rielaborare le frasi scritte dall’utente per dargli l’impressione che vi fosse una certa logicità nel flusso tra domande e risposte. Nulla a che vedere con le reti neurali che danno vita a chatgpt o a Google Bard.

La storia dei LLM è frammentata, finita più volte in disparte anche a causa degli inverni delle AI, periodi durante i quali l’interesse per le AI è scemato coincidendo con un minore afflusso di investimenti da destinare alla ricerca. Nel caso dei LLM fanno stato soprattutto il secondo e il terzo inverno delle AI, verificatisi rispettivamente all’inizio degli anni Ottanta e poi degli anni Novanta.

Nel 2013 è stato realizzato word2vec (word to vector), in grado di trasformare parole in vettori capaci di rilevare le occorrenze semantiche.

Da qui un salto fino al 2020, anno in cui è stato rilasciato GPT-3 al quale va riconosciuto il merito di avere rianimato l’interesse nelle AI in genere.

Ridurre lo sviluppo dei LLM all’avvento di GPT-3 è limitativo. GPT-3 è un esempio fulgido dei risultati raggiunti nel campo dei LLM, ma non li rappresenta in tutto e per tutto.

Come lavorano i Large Language Model

I LLM apprendono da grandi moli di dati, fanno quindi leva sul machine learning e sul deep learning. Oggi i dati con i quali vengono addestrati tendono a coincidere con tutto ciò a cui si può attingere su internet. Torna, ancora una volta, il parallelo tra la crescita delle IA e la quantità di dati sui quali queste possono fare affidamento.

Dati che diventano il riferimento degli algoritmi AI grazie all’apprendimento non supervisionato, ovvero la condizione per la quale i set di dati vengono passati agli algoritmi senza dare loro istruzioni esplicite su cosa farne. Così il modello linguistico apprende le parole e le relazioni tra queste, imparando a comprendere i diversi significati di un termine identico usato in contesti diversi (per esempio, la parola piano che ha più accezioni).

Il risultato assimila le capacità di un modello linguistico a quelle di un essere umano capace di costruire frasi impeccabili dal punto di vista grammaticale e sintattico, arrivando così a generare contenuti. Va anche considerato che un LLM può essere personalizzato, istruendolo con tecniche di fine tuning affinché si concentri su un ambito specifico, per esempio quello legale o medico, laddove la specificità dei termini tecnici assume un’importanza vincolante.

Questa capacità di trasformazione è ciò su cui si erigono i più performanti LLM.

Applicazioni delle reti linguistiche

La più diffusa applicazione dei modelli linguistici riguarda i chatbot, campo discretamente vasto che dà origine a più casi d’uso, tra questi:

assistenti virtuali capaci di fornire interazioni tra AI e un utente umano, particolarmente usati per fornire supporto ai clienti di aziende

traduzione

creazione di contenuti

Ci sono però contesti più specifici nei quali queste tre destinazioni d’uso trovano una maggiore profondità.

I motori di ricerca possono usare i LLM per migliorare la precisione dei risultati restituiti. L’istruzione può giovarne per personalizzare l’apprendimento e consigliare testi e approfondimenti.

Allo stesso modo i LLM possono essere impiegati per migliorare il Natural Language Processing (NLP), per esempio per rendere più puntuale l’analisi delle impressioni dei clienti (il sentiment).

Uno degli ambiti più interessanti riguarda la sanità, laddove i LLM possono esaminare i dati dei pazienti e fornire trattamenti personalizzati ma, ancora più in profondità, possono contribuire a raccogliere tutte le conversazioni medico-paziente e dare corpo a fascicoli sanitari più completi e quindi più preziosi dal punto di vista diagnostico.

I campi di applicazione sono svariati, tant’è che possono essere usati da chi fa marketing e persino dai media per pubblicare contenuti. C’è però un livello di astrazione superiore che nasce dal connubio tra reti neurali e l’impiego più ambizioso dei LLM.

I vantaggi dell’utilizzo di reti linguistiche a grande scala

Ci sono vantaggi pratici, come visto, che tendono peraltro a comprimere i costi, a liberare risorse e soprattutto a offrire servizi sempre più affidabili. Molti degli ambiti di applicazione dei LLM nasceranno nel prossimo futuro e porteranno cambiamenti radicali a ogni livello. Ne abbozziamo uno fuori dal coro, al riparo da quelli che normalmente si leggono e che ormai appaiono inflazionati.

I LLM mostrano comportamenti indesiderati, e su questo ci concentreremo in seguito. Comportamenti che stanno mostrando limiti il cui superamento richiederà non soltanto la multidisciplinarietà, ma anche la multiculturalità.

Da una parte è necessario l’intervento coordinato di una serie di profili professionali, tra i quali medici, scienziati, tecnici, filologi, sociologi, psicologi e avvocati. Tuttavia, i dati e l’addestramento non possono essere intesi in modo identico in tutto il mondo. Ciò significa che i modelli non potranno basarsi soltanto sui dati ma anche sui valori che questi devono rappresentare. Una sfida che nasconde un fascino equiparabile al grado di difficoltà e che costringerà a ridisegnare la maniera in cui intendiamo il mondo, facendolo diventare villaggio globale nel rispetto delle culture.

Le sfide nell’implementazione di reti linguistiche a grande scala

I LLM, per quanto si possano in qualche modo considerare intelligenti, non lavorano nel modo in cui opera il cervello umano. Non hanno una visione semantica, non hanno idee e non formulano concetti in modo autonomo. Adottare sistemi probabilistici per portare a termine dei compiti è questione molto più critica di quanto si potrebbe credere a una prima lettura: non c’è certezza della bontà di ciò che gli LLM restituiscono perché non si sa esattamente da dove attingono le informazioni.

Restando confinati alla pura analisi del testo, interrogando un LLM su un qualsiasi tema, ciò che restituisce potrebbe essere frutto della consultazione di un data set completamente sballato e persino fantasioso. È un problema che può essere risolto certificando la qualità e l’affidabilità dei set di dati e che si situa al di sopra della sempiterna questione dei pregiudizi che le IA ereditano dall’uomo. Restringere i data set limita però lo sviluppo dei LLM in quanto tali e, anche in questo caso, siamo al cospetto di un problema affascinante.

Dal punto di vista più pratico, invece, va considerato che l’addestramento, il mantenimento (e anche il ridimensionamento) dei modelli linguistici è costoso. La distribuzione dei LLM richiede competenze tecniche di alto livello, oltre a necessitare di software e hardware specifici e performanti.

Analisi della qualità del testo prodotto con i Large Language Model

Le ricerche fatte in questo senso vertono tutte nella stessa direzione: il controllo qualitativo spetta all’uomo. È una negazione in termini: un LLM può essere impiegato per sgravare l’uomo da compiti specifici e occorre l’intervento di quest’ultimo per garantirne la bontà.

Questo vale soprattutto per gli ambiti più sensibili, laddove le verifiche vanno fatte prima che il risultato degli LLM venga impiegato. Un esempio è quello dell’ambito medico, nel quale l’uomo deve supervisionare e controllare la veridicità dei dati prima che ne faccia uso o se ne avvalga in qualche modo.

Se si valuta l’ambito commerciale, laddove i LLM vengono usati per fornire assistenza ai clienti, un feedback di questi ultimi può essere sufficiente per valutare la qualità del servizio erogato. Un sistema di critica che, tuttavia, deve essere affrontato e misurato da un operatore umano.

Il futuro dei Large Language Model e il loro impatto sull’industria

I LLM evolvono, diventano sempre più precisi, ma questa è solo una faccia della medaglia. Sull’altro lato spicca la difficoltà nel mettere a punto un sistema di apprendimento continuo e lineare e questo sarà foriero di ostacoli nel loro sviluppo su larga scala.

L’impatto sull’industria è ancora più problematico, perché le AI faticano ad adattarsi a dispositivi di dimensioni ridotte, con ricadute sulle prestazioni. Questo obbliga ad affidarsi a soluzioni esterne, tipicamente fornite in Cloud, minimizzando così la specificità d’uso richiesta da ogni singola impresa. I dati necessari ad alimentare un LLM sono molti e l’addestramento specifico rappresenta un costo ingente.