Tecnologie

LLM, cosa sono: applicazioni dei Large Language Model per le aziende



Indirizzo copiato

I Large Language Model hanno il pregio di essere utilizzabili per diversi scopi e le imprese ne faranno un uso sempre più ampio per smarcarsi le une dalle altre. Non hanno una nozione di cognizione ma sono a loro modo sorprendenti e molto più antichi di quanto si possa pensare

Pubblicato il 6 mar 2024



large language model
Una cronologia dei modelli linguistici di grandi dimensioni esistenti (con una dimensione superiore a 10B) negli ultimi anni. La tempistica è stata stabilita principalmente in base alla data di rilascio (ad esempio, la data di presentazione ad arXiv) del documento tecnico per un modello. Se non c'era un documento corrispondente, impostiamo la data di un modello come prima volta della sua uscita pubblica o annuncio. Contrassegniamo gli LLM con i punti di controllo del modello disponibili pubblicamente in colore giallo. A causa del limite di spazio della figura, includiamo solo i LLM con risultati di valutazione riportati pubblicamente

Quello dei LLM o Large Language Model è un tema talmente vasto da rappresentare una difficoltà oggettiva per chiunque debba scriverne in modo succinto. Parte dell’ampiezza di questo argomento proviene da un retaggio che si estende ben oltre il momento in cui se ne è cominciato a parlare. Esisteva anche prima che gli si desse un nome, benché i suoi archetipi siano stati usati in modo del tutto diverso rispetto al modo in cui il LLM viene usato oggi.

L’intelligenza artificiale (IA) sta aprendo nuovi orizzonti in diversi settori, e l’elaborazione del linguaggio naturale (NLP) rappresenta un’area chiave per il suo sviluppo.

In questo contesto, i modelli linguistici di grandi dimensioni (LLM) assumono un ruolo fondamentale, offrendo la capacità di processare e generare il linguaggio in modo sofisticato e aprendo la strada a nuove possibilità rivoluzionarie.

Per capire quali usi si possono fare di un LLM occorre capire cos’è un modello di linguaggio a prescindere dalla sua grandezza (la traduzione in italiano di Large Language Model è modello di linguaggio di grandi dimensioni).

Cosa si intende con LLM, Large Language Model

Un LLM è un algoritmo Deep learning capace di riconoscere contenuti, generarli, riassumerli, tradurli e persino prevederli. Per farlo ha bisogno di big data, ossia enormi set di dati. I LLM hanno riguadagnato una certa celebrità grazie a ChatGPT ma gli occhi più esperti sanno che l’hype è in realtà iniziato con GPT-3, modello di linguaggio che risale al 2020 e che ha restituito un risultato olistico ma, a ben vedere, neppure troppo sorprendente.

Infatti, osservando GPT-3 i ricercatori dei OpenAI che lo hanno creato, si sono resi conto che faceva più di quanto si aspettassero, per esempio riuscendo a scrivere porzioni di codice e, in qualche modo, imparando dalle proprie attività. Niente di stupefacente né di senziente.

C’è quindi un rapporto stretto tra LLM e contenuti di diverso tipo: testo, immagini, audio, video, ma non solo. Dall-e 2 è un modello LLM e viene usato per scoprire nuove proteine, ChatGPT è un modello LLM e viene usato anche per scrivere software. Da ciò si evince che il termine LLM (e la sua traduzione) rappresenta una limitata etichetta rispetto a ciò che questi modelli sono in grado di fare.

large language model

Storia dei Large Language Model

Prima che si arrivasse ai LLM come li conosciamo oggi, si è partiti dallo Statistical language model che ha attirato l’attenzione delle comunità scientifiche a partire dal 1980. Un modello secondo il quale, grazie alla statistica, è stato possibile aggiungere singole parole per continuare una frase.

Nella letteratura di settore si trova spesso un riferimento a Eliza un chatbot elaborato nel 1966 da Joseph Weizenbaum. Un esperimento interessante ma lontano dall’essere considerato in grado di leggere e comprendere la conversazione, si limitava a rielaborare le frasi scritte dall’utente per dargli l’impressione che vi fosse una certa logicità nel flusso tra domande e risposte. Nulla a che vedere con le reti neurali che danno vita a Chatgpt o a Google Bard.

La storia dei LLM è frammentata, finita più volte in disparte anche a causa degli inverni delle AI, periodi durante i quali l’interesse per le AI è scemato coincidendo con un minore afflusso di investimenti da destinare alla ricerca. Nel caso dei LLM fanno stato soprattutto il secondo e il terzo inverno delle AI, verificatisi rispettivamente all’inizio degli anni Ottanta e poi degli anni Novanta.

Nel 2013 è stato realizzato word2vec (word to vector), in grado di trasformare parole in vettori capaci di rilevare le occorrenze semantiche.

Da qui un salto fino al 2020, anno in cui è stato rilasciato GPT-3 al quale va riconosciuto il merito di avere rianimato l’interesse nelle AI in genere.

Ridurre lo sviluppo dei LLM all’avvento di GPT-3 è limitativo. GPT-3 è un esempio fulgido dei risultati raggiunti nel campo dei LLM, ma non li rappresenta in tutto e per tutto.

What are Generative AI models?

Video: Cosa sono i modelli di AI generativa (IBM)

Come lavorano i Large Language Model

I LLM apprendono da grandi moli di dati, fanno quindi leva sul machine learning e sul deep learning. Oggi i dati con i quali vengono addestrati tendono a coincidere con tutto ciò a cui si può attingere su internet. Torna, ancora una volta, il parallelo tra la crescita delle IA e la quantità di dati sui quali queste possono fare affidamento.

Dati che diventano il riferimento degli algoritmi AI grazie all’apprendimento non supervisionato, ovvero la condizione per la quale i set di dati vengono passati agli algoritmi senza dare loro istruzioni esplicite su cosa farne. Così il modello linguistico apprende le parole e le relazioni tra queste, imparando a comprendere i diversi significati di un termine identico usato in contesti diversi (per esempio, la parola piano che ha più accezioni).

Il risultato assimila le capacità di un modello linguistico a quelle di un essere umano capace di costruire frasi impeccabili dal punto di vista grammaticale e sintattico, arrivando così a generare contenuti. Va anche considerato che un LLM può essere personalizzato, istruendolo con tecniche di fine tuning affinché si concentri su un ambito specifico, per esempio quello legale o medico, laddove la specificità dei termini tecnici assume un’importanza vincolante.

Questa capacità di trasformazione è ciò su cui si erigono i più performanti LLM.

large language model
Pre-training vs. fine-tuning (fonte: medium.com)

Tecnologie chiave alla base degli LLM

  • Reti neurali artificiali (ANN): le ANN sono sistemi computazionali ispirati al cervello umano che permettono agli LLM di apprendere e di svolgere compiti complessi.
  • Modelli Generativi: questi modelli sono in grado di creare nuovi dati, come testo, immagini o musica, a partire da un set di dati di addestramento.
  • Modelli Pre-addestrati: gli LLM vengono spesso pre-addestrati su un corpus di testo generico e poi adattati a un compito specifico.
  • Transformer: un’architettura di rete neurale particolarmente efficace per l’elaborazione del linguaggio naturale.

Applicazioni delle reti linguistiche

La più diffusa applicazione dei modelli linguistici riguarda i chatbot, campo discretamente vasto che dà origine a più casi d’uso, tra questi:

  • Generazione di testo: gli LLM possono creare testi realistici e coerenti, come articoli di blog, email, poesie, script e altro ancora.
  • Traduzione automatica: gli LLM possono tradurre testi da una lingua all’altra con un alto grado di accuratezza e fluidità.
  • Riassunto di testi: gli LLM possono estrarre le informazioni più importanti da un testo e generare un riassunto conciso e informativo.
  • Chatbot: gli LLM possono alimentare chatbot in grado di dialogare con gli utenti in modo naturale e coinvolgente.
  • Assistenti virtuali: gli LLM possono essere integrati in assistenti virtuali per migliorare la loro capacità di comprendere e rispondere alle richieste degli utenti.

Ci sono però contesti più specifici nei quali queste tre destinazioni d’uso trovano una maggiore profondità.

I motori di ricerca possono usare i LLM per migliorare la precisione dei risultati restituiti. L’istruzione può giovarne per personalizzare l’apprendimento e consigliare testi e approfondimenti.

Allo stesso modo i LLM possono essere impiegati per migliorare il Natural Language Processing (NLP), per esempio per rendere più puntuale l’analisi delle impressioni dei clienti (il sentiment).

Uno degli ambiti più interessanti riguarda la sanità, laddove i LLM possono esaminare i dati dei pazienti e fornire trattamenti personalizzati ma, ancora più in profondità, possono contribuire a raccogliere tutte le conversazioni medico-paziente e dare corpo a fascicoli sanitari più completi e quindi più preziosi dal punto di vista diagnostico.

I campi di applicazione sono svariati, tant’è che possono essere usati da chi fa marketing e persino dai media per pubblicare contenuti. C’è però un livello di astrazione superiore che nasce dal connubio tra reti neurali e l’impiego più ambizioso dei LLM.

Alcuni dei principali LLM al mondo

  • GPT-3: sviluppato da OpenAI, è uno dei LLM più noti e potenti.
  • LaMDA: sviluppato da Google AI, si concentra sulla generazione di dialoghi realistici e coinvolgenti.
  • Megatron-Turing NLG: sviluppato da NVIDIA e Microsoft, è un LLM con un’elevata capacità di generazione di testo.
  • Jurassic-1: sviluppato da AI21 Labs, è un LLM in cinese con un’ampia gamma di applicazioni.
  • WuDao 2.0: sviluppato da BAAI, è un LLM in cinese con un focus sulla comprensione del linguaggio naturale.
  • Pangu 3.0: sviluppato da Huawei e destinato all’industria.
  • Bloom: sviluppato da Hugging Face e BigScience, è un LLM multilingue con un’elevata efficienza.
  • Gemini: sviluppato da Google AI, ex Bard, è un LLM italiano con un focus sulla generazione di testo creativo.
  • PaLM: sviluppato da Google AI, è un LLM con un’ampia gamma di capacità cognitive.

I vantaggi dell’utilizzo di reti linguistiche a grande scala

Ci sono vantaggi pratici, come visto, che tendono peraltro a comprimere i costi, a liberare risorse e soprattutto a offrire servizi sempre più affidabili. Molti degli ambiti di applicazione dei LLM nasceranno nel prossimo futuro e porteranno cambiamenti radicali a ogni livello. Ne abbozziamo uno fuori dal coro, al riparo da quelli che normalmente si leggono e che ormai appaiono inflazionati.

I LLM mostrano comportamenti indesiderati, e su questo ci concentreremo in seguito. Comportamenti che stanno mostrando limiti il cui superamento richiederà non soltanto la multidisciplinarietà, ma anche la multiculturalità.

Da una parte è necessario l’intervento coordinato di una serie di profili professionali, tra i quali medici, scienziati, tecnici, filologi, sociologi, psicologi e avvocati. Tuttavia, i dati e l’addestramento non possono essere intesi in modo identico in tutto il mondo. Ciò significa che i modelli non potranno basarsi soltanto sui dati ma anche sui valori che questi devono rappresentare. Una sfida che nasconde un fascino equiparabile al grado di difficoltà e che costringerà a ridisegnare la maniera in cui intendiamo il mondo, facendolo diventare villaggio globale nel rispetto delle culture.

Le sfide nell’implementazione di reti linguistiche a grande scala

I LLM, per quanto si possano in qualche modo considerare intelligenti, non lavorano nel modo in cui opera il cervello umano. Non hanno una visione semantica, non hanno idee e non formulano concetti in modo autonomo. Adottare sistemi probabilistici per portare a termine dei compiti è questione molto più critica di quanto si potrebbe credere a una prima lettura: non c’è certezza della bontà di ciò che gli LLM restituiscono perché non si sa esattamente da dove attingono le informazioni.

Restando confinati alla pura analisi del testo, interrogando un LLM su un qualsiasi tema, ciò che restituisce potrebbe essere frutto della consultazione di un data set completamente sballato e persino fantasioso. È un problema che può essere risolto certificando la qualità e l’affidabilità dei set di dati e che si situa al di sopra della sempiterna questione dei pregiudizi che le IA ereditano dall’uomo. Restringere i data set limita però lo sviluppo dei LLM in quanto tali e, anche in questo caso, siamo al cospetto di un problema affascinante.

Dal punto di vista più pratico, invece, va considerato che l’addestramento, il mantenimento (e anche il ridimensionamento) dei modelli linguistici è costoso. La distribuzione dei LLM richiede competenze tecniche di alto livello, oltre a necessitare di software e hardware specifici e performanti.

Risks of Large Language Models (LLM)

Video: I rischi dei LLM (IBM)

Analisi della qualità del testo prodotto con i Large Language Model

Le ricerche fatte in questo senso vertono tutte nella stessa direzione: il controllo qualitativo spetta all’uomo. È una negazione in termini: un LLM può essere impiegato per sgravare l’uomo da compiti specifici e occorre l’intervento di quest’ultimo per garantirne la bontà.

Questo vale soprattutto per gli ambiti più sensibili, laddove le verifiche vanno fatte prima che il risultato degli LLM venga impiegato. Un esempio è quello dell’ambito medico, nel quale l’uomo deve supervisionare e controllare la veridicità dei dati prima che ne faccia uso o se ne avvalga in qualche modo.

Se si valuta l’ambito commerciale, laddove i LLM vengono usati per fornire assistenza ai clienti, un feedback di questi ultimi può essere sufficiente per valutare la qualità del servizio erogato. Un sistema di critica che, tuttavia, deve essere affrontato e misurato da un operatore umano.

large language model

Il futuro dei Large Language Model e il loro impatto sull’industria

I LLM evolvono, diventano sempre più precisi, ma questa è solo una faccia della medaglia. Sull’altro lato spicca la difficoltà nel mettere a punto un sistema di apprendimento continuo e lineare e questo sarà foriero di ostacoli nel loro sviluppo su larga scala.

L’impatto sull’industria è ancora più problematico, perché le AI faticano ad adattarsi a dispositivi di dimensioni ridotte, con ricadute sulle prestazioni. Questo obbliga ad affidarsi a soluzioni esterne, tipicamente fornite in Cloud, minimizzando così la specificità d’uso richiesta da ogni singola impresa. I dati necessari ad alimentare un LLM sono molti e l’addestramento specifico rappresenta un costo ingente.

L’altra faccia della medaglia, è rappresentata dalla capacità degli LLM di comprendere, generare e interpretare il linguaggio umano con una precisione quasi umana apre nuove frontiere per l’automazione, l’assistenza al cliente, l’analisi dei dati e molto altro. In questo contesto, l’importanza di comprendere l’impatto dei Large Language Models sulle aziende e sull’industria nel suo complesso non può essere sottovalutata.

Casi d’uso degli LLM nei diversi settori industriali

I dati necessari ad alimentare un LLM sono molti e l'addestramento specifico rappresenta un costo ingente.
Foundational model (fonte: ArXiv)

Automazione avanzata e efficienza operativa

I Large Language Models stanno ridefinendo il concetto di automazione nelle aziende. Dall’automazione delle risposte di assistenza al cliente fino alla creazione di contenuti e report, i LLM offrono una precisione e una velocità di esecuzione che superano di gran lunga i metodi tradizionali. Questo apre le porte a un aumento significativo dell’efficienza operativa, riducendo i costi e liberando risorse umane per compiti di maggiore valore aggiunto.

Analisi dei dati

La capacità dei LLM di analizzare grandi volumi di testo consente alle aziende di ottenere insight preziosi dai dati non strutturati, come feedback dei clienti, rapporti di mercato e comunicazioni interne. Questo facilita la presa di decisioni basate su dati, migliorando la strategia aziendale e l’allocazione delle risorse.

Sfide Etiche e di Privacy

Nonostante i numerosi benefici, l’adozione dei Large Language Models solleva questioni etiche e di privacy. La gestione responsabile dei dati, la trasparenza degli algoritmi e il rispetto della privacy dei clienti sono sfide cruciali che le aziende devono affrontare per costruire fiducia e sostenibilità a lungo termine.

Articoli correlati

Articolo 1 di 4