AI GENERATIVA

Nasce la macchina della verità per i chatbot

Cleanlab, una startup di AI, ha sviluppato un nuovo strumento chiamato Trustworthy Language Model (TLM) per aiutare gli utenti a capire l’affidabilità degli output generati dai grandi modelli linguistici. Lo strumento assegna un punteggio tra 0 e 1 all’affidabilità degli output, consentendo di scegliere a quali risposte affidarsi e quali invece scartare

Pubblicato il 29 apr 2024

Pierluigi Sandonnini

Ichatbot inventano le risposte. Hanno le allucinazioni. Ora sarà più facile capire quali risposte sono autentiche e quali sono fasulle, grazie a un nuovo strumento creato da Cleanlab, una startup di intelligenza artificiale nata da un laboratorio di calcolo quantistico del MIT, progettato per dare agli utenti ad alto rischio un senso più chiaro della affidabilità di questi modelli. Chiamato Trustworthy Language Model (Modello Linguistico Affidabile), esso assegna a qualsiasi output generato da un grande modello linguistico un punteggio tra 0 e 1, in base alla sua affidabilità. Questo permette alle persone di scegliere di quali risposte fidarsi e quali scartare.

Indice degli argomenti:

I chatbot inventano le informazioni nel 3% dei casi

Cleanlab spera che il suo strumento renderà i grandi modelli linguistici più attraenti per le aziende preoccupate per quanto inventano. “Penso che le persone sappiano che i LLM cambieranno il mondo, ma si sono semplicemente impantanate nelle maledette allucinazioni”, dice Curtis Northcutt, CEO di Cleanlab. I chatbot stanno rapidamente diventando il modo dominante con cui le persone cercano informazioni tramite il pc. I motori di ricerca vengono riprogettati attorno a questa tecnologia. Il software per ufficio utilizzato ogni giorno da miliardi di persone per creare tutto, dai compiti scolastici ai testi di marketing ai rapporti finanziari, ora include chatbot integrati. Eppure uno studio pubblicato a novembre da Vectara, una startup fondata da ex dipendenti Google, ha scoperto che i chatbot inventano informazioni almeno il 3% delle volte. Potrebbe non sembrare molto, ma è un potenziale errore che la maggior parte delle aziende non tollererà.

Lo strumento di Cleanlab è già utilizzato da alcune aziende, tra cui Berkeley Research Group, una società di consulenza britannica specializzata in controversie e indagini aziendali. Steven Gawthorpe, direttore associato presso Berkeley Research Group, afferma che il Trustworthy Language Model è la prima soluzione valida al problema delle allucinazioni che ha visto: “Il TLM di Cleanlab ci dà la potenza di migliaia di data scientist”. Nel 2021, Cleanlab ha sviluppato una tecnologia che ha scoperto errori in 10 popolari set di dati utilizzati per addestrare gli algoritmi di apprendimento automatico; funziona misurando le differenze nell’output attraverso una serie di modelli addestrati su tali dati.

Announcing the Cleanlab Trustworthy Language Model (TLM)

Guarda questo video su YouTube

Trustworthy Language Model, una tecnologia già utilizzata da Google, Tesla e Chase

Questa tecnologia è ora utilizzata da diverse grandi aziende, tra cui Google, Tesla e il gigante bancario Chase. Il Trustworthy Language Model prende la stessa idea di base – ovvero che le divergenze tra i modelli possono essere utilizzate per misurare l’affidabilità del sistema complessivo – e la applica ai chatbot. In una demo, il Ceo Northcutt ha digitato una semplice domanda in ChatGPT: “Quante volte appare la lettera ‘n’ in ‘enter’?”

ChatGPT ha risposto: “La lettera ‘n’ appare una volta nella parola ‘enter'”. Questa risposta corretta promuove la fiducia. Ma se si pone la domanda qualche volta in più, ChatGPT risponde: “La lettera ‘n’ appare due volte nella parola ‘enter'”. “Non solo spesso sbaglia, ma è anche casuale, non sai mai cosa produrrà”, dice Northcutt. “Perché diavolo non può semplicemente dirti che produce risposte diverse tutto il tempo?”

L’obiettivo di Cleanlab è rendere più esplicita questa casualità. Northcutt pone al Trustworthy Language Model la stessa domanda. “La lettera ‘n’ appare una volta nella parola ‘enter'”, dice – e assegna alla sua risposta un punteggio di 0,63. Sei su dieci non è un grande punteggio, suggerendo che non bisognerebbe fidarsi della risposta del chatbot a questa domanda. È un esempio basilare, ma fa capire il punto. Senza il punteggio, potresti pensare che il chatbot sappia di cosa sta parlando, dice Northcutt.

Il problema è che i data scientist che testano i grandi modelli linguistici in situazioni ad alto rischio potrebbero essere fuorviati da alcune risposte corrette e presumere che anche le risposte future saranno corrette: “Provano cose, provano alcuni esempi, e pensano che funzioni. E poi fanno cose che portano a decisioni aziendali davvero cattive”.

Trustworthy Language Model, come funziona

Il Trustworthy Language Model utilizza diverse tecniche per calcolare i suoi punteggi. Prima di tutto, ogni query inviata allo strumento viene inviata a uno o più grandi modelli linguistici. La tecnologia funzionerà con qualsiasi modello, dice Northcutt, compresi i modelli a sorgente chiusa come la serie GPT di OpenAI, i modelli dietro ChatGPT, e i modelli open source come DBRX, sviluppato dalla società di intelligenza artificiale con sede a San Francisco Databricks. Se le risposte da ciascuno di questi modelli sono uguali o simili, contribuirà a un punteggio più alto.

Allo stesso tempo, il Trustworthy Language Model invia anche variazioni della query originale a ciascuno dei modelli, sostituendo parole con lo stesso significato. Anche in questo caso, se le risposte alle query sinonime sono simili, contribuirà a un punteggio più alto. “Li confondiamo in diversi modi per ottenere output diversi e vedere se concordano”, dice Northcutt. Lo strumento può anche far rimbalzare le risposte tra vari modelli: “È come dire: ‘Ecco la mia risposta – cosa ne pensi?’ ‘Ecco la mia – cosa ne pensi?’ E li lasci parlare”. Anche queste interazioni vengono monitorate, misurate e inserite nel punteggio.

Nick McKenna, un informatico di Microsoft Research a Cambridge, UK, che lavora su grandi modelli linguistici per la generazione di codice, è ottimista sul fatto che l’approccio potrebbe essere utile. Ma dubita che sarà perfetto. “Uno dei problemi che vediamo nelle allucinazioni dei modelli è che possono insinuarsi molto sottilmente”, dice. In una serie di test su diversi grandi modelli linguistici, Cleanlab mostra che i suoi punteggi di affidabilità si correlano bene con l’accuratezza delle risposte di quei modelli. In altre parole, i punteggi vicini a 1 si allineano con le risposte corrette, e i punteggi vicini a 0 si allineano con quelle sbagliate. In un altro test, hanno anche scoperto che l’utilizzo del Trustworthy Language Model con GPT-4 produceva risposte più affidabili rispetto all’uso di GPT-4 da solo. I grandi modelli linguistici generano testo predicendo la parola successiva più probabile in una sequenza.

Nelle future versioni del suo strumento, Cleanlab prevede di rendere i suoi punteggi ancora più accurati attingendo alle probabilità utilizzate da un modello per fare queste previsioni. Vuole anche accedere ai valori numerici che i modelli assegnano a ciascuna parola nel loro vocabolario, che utilizzano per calcolare queste probabilità. Questo livello di dettaglio è fornito da certe piattaforme, come Bedrock di Amazon, che le aziende possono utilizzare per eseguire grandi modelli linguistici.

I test effettuati da Cleanlab

Cleanlab ha testato il suo approccio su dati forniti da Berkeley Research Group. L’azienda doveva cercare riferimenti a problemi di conformità sanitaria in decine di migliaia di documenti aziendali. Fare questo a mano può richiedere settimane a personale qualificato. Controllando i documenti con il Trustworthy Language Model, Berkeley Research Group è stato in grado di vedere quali documenti il chatbot era meno sicuro e controllare solo quelli. Ha ridotto il carico di lavoro di circa l’80%, dice Northcutt.

In un altro test, Cleanlab ha lavorato con una grande banca (Northcutt non l’ha nominata ma dice che è un concorrente di Goldman Sachs). Similmente a Berkeley Research Group, la banca doveva cercare riferimenti a reclami assicurativi in circa 100mila documenti. Anche in questo caso, il Trustworthy Language Model ha ridotto il numero di documenti che dovevano essere controllati manualmente di più della metà. Eseguire ogni query più volte attraverso più modelli richiede più tempo e costa molto più del tipico botta e risposta con un singolo chatbot. Ma Cleanlab sta proponendo il Trustworthy Language Model come un servizio premium per automatizzare compiti ad alto rischio che in passato sarebbero stati off limits per i grandi modelli linguistici. L’idea non è sostituire i chatbot esistenti, ma fare il lavoro di esperti umani. Se lo strumento può ridurre la quantità di tempo che devi impiegare per assumere economisti o avvocati qualificati a 2.000 dollari l’ora, i costi ne varranno la pena, dice Northcutt.

A lungo termine, Northcutt spera che riducendo l’incertezza attorno alle risposte dei chatbot, la sua tecnologia sbloccherà la promessa dei grandi modelli linguistici per una gamma più ampia di utenti. “Il problema delle allucinazioni non è un problema dei grandi modelli linguistici”, dice. “È un problema di incertezza”.

@RIPRODUZIONE RISERVATA