I ricercatori di Google DeepMind hanno sviluppato un metodo che aumenta in modo significativo le capacità matematiche dei modelli linguistici utilizzando suggerimenti simili a quelli dell’interazione umana, secondo il documento recentemente pubblicato “Large Language Models as Optimizers”.
Gli scienziati di DeepMind hanno proposto un metodo chiamato Optimization by PROmpting (OPRO) per migliorare le prestazioni di modelli linguistici di grandi dimensioni come ChatGPT di OpenAI. L’approccio utilizza il parlato umano di tutti i giorni per guidare questi modelli nella risoluzione dei problemi.
Deep Mind OPRO, come funziona
Solitamente, nell’apprendimento automatico, metodi specifici che utilizzano procedure passo-passo aiutano a migliorare il funzionamento di un modello di intelligenza artificiale. Invece di utilizzare definizioni matematiche formali per svolgere questo compito, OPRO utilizza un linguaggio semplice per avviare il processo di miglioramento. Il modello linguistico di grandi dimensioni crea possibili soluzioni in base alla descrizione del problema e alle risposte precedenti.
“I LLM sono addestrati su contenuti generati dall’uomo e il modo in cui funziona, a grandi linee, è quello di terminare le frasi come farebbe una buona coppia”, ha dichiarato in un’intervista Tinglong Dai, professore di Operations Management e Business Analytics alla Johns Hopkins University, che non è stato coinvolto nella ricerca. “Quindi non è sorprendente che i suggerimenti simili a quelli umani portino a buoni risultati”.
DeepMind e LLM: la formulazione può influenzare l’output dell’AI
Lo studio di DeepMind ha anche scoperto che alcune frasi influenzano i risultati dell’intelligenza artificiale. Prompt come “pensiamo passo dopo passo” hanno portato i modelli di intelligenza artificiale a produrre risultati più accurati quando sono stati valutati rispetto a serie di problemi matematici.
I ricercatori hanno scoperto che la richiesta “Fai un respiro profondo e lavora su questo problema passo dopo passo” è stata più efficace con il modello linguistico PaLM 2 di Google. Questa frase ha raggiunto il punteggio di precisione più alto, pari all’80,2%, quando è stata testata con GSM8K, un set di dati di problemi matematici di scuola elementare. In confronto, PaLM 2, senza alcun suggerimento speciale, ha ottenuto solo un’accuratezza del 34% su GSM8K, mentre il classico prompt “Pensiamo passo dopo passo” ha raggiunto un punteggio di accuratezza del 71,8%.
I LLM rispondono bene a richieste simili a quelle umane perché sono state addestrate su dati di conversazione in lingua umana, come discussioni su Reddit e sceneggiature di film, ha dichiarato in un’intervista Michael Kearns, professore di Informatica e Scienze dell’Informazione presso l’Università della Pennsylvania, che non faceva parte del team DeepMind.
“In questo senso, i laureati magistrali sono bravi a modificare la loro produzione in risposta alle richieste e agli incoraggiamenti, come la richiesta di una produzione in un particolare stile o genere”, ha aggiunto. “In termini di competenze matematiche, si dice generalmente che incoraggiare un LLM a scomporre un problema matematico o logico in fasi sia molto efficace, così come la formazione su dati che includono prove matematiche, programmi per computer e altri esempi di ragionamento formale”.
DeepMind e LLM: meglio usare frasi verbose
La maggior parte dei LLM è stata addestrata e messa a punto su un volume enorme di dati, quindi possiede eccellenti capacità di linguaggio naturale, come la parafrasi o l’arricchimento di una frase, ha dichiarato in una intervista Chengrun Yang, uno degli autori del documento di DeepMind.
“Inoltre, si è lavorato sull’allineamento dei modelli, che migliora la capacità dei modelli di comprendere e rispondere a richieste simili a quelle umane, proprio come un essere umano, dato che, in ogni caso, definiamo se un modello risponde ‘bene’ dal punto di vista di un essere umano”, ha aggiunto.
I suggerimenti simili a quelli dell’uomo sono spesso modellati come richieste che spingono il modello di intelligenza artificiale a impegnarsi in un’interazione di tipo dialogico, in cui il modello ha il compito di fornire una risposta accurata sulla base di spunti familiari, ha dichiarato Olga Beregovaya, vicepresidente del settore AI e traduzione automatica dell’azienda di traduzione software Smartling.
“Le LLM funzionano meglio quando ricevono un contesto più ampio”, ha aggiunto l’autrice. “Le richieste più verbose, simili a quelle umane, tendono a fornire più contesto, descrizioni, esempi, rendendo più facile per il modello eseguire il compito, allineando il suo output con il contesto della richiesta”.
Le parole di incoraggiamento possono essere utili
A volte, semplici parole di incoraggiamento possono spingere l’intelligenza artificiale a fare meglio. Il professor Dai dichiara che i LLM possono produrre risultati superiori quando gli utenti rispondono ai loro risultati con “Dai, puoi fare meglio di così!”. Ha osservato che ci sono casi in cui gli utenti chiedono alle LLM di fingere di essere un premio Nobel per l’economia e di commentare l’inflazione, ottenendo risultati migliori rispetto al resto.
“Nel caso della diagnosi medica, chiedere ai laureati in Lettere di fingere di essere un esperto di medicina di livello mondiale può talvolta produrre risultati più precisi e mirati”, ha aggiunto. “Ma non sono a conoscenza di alcuna prova concreta che tale incoraggiamento di tipo umano porti a miglioramenti universali in diversi tipi di compiti”.
Dai ha detto che è importante notare che i LLM possono rispondere bene a richieste non umane, a seconda del compito. “Ho visto LLM rispondere in modo molto efficace a richieste strutturate come codice informatico, ad esempio con istruzioni If-Then-Else“, ha aggiunto.
Conclusioni
Il nuovo metodo potrebbe rendere più semplice l’ingegnerizzazione dei suggerimenti dell’intelligenza artificiale, afferma Yang.
“Gli utenti possono ottimizzare i suggerimenti con le loro metriche: l’accuratezza nella risoluzione dei problemi nel ragionamento matematico, la velocità di attivazione nell’uso degli strumenti, la vivacità e la lunghezza del testo nella scrittura creativa, ecc. “Inoltre, speriamo che il nostro metodo possa ispirare nuovi modi di utilizzare i LLM per ottimizzare altri tipi di compiti”.