analisi

Large language model: il futuro fra crescita illimitata e ostacoli



Indirizzo copiato

I modelli linguistici di intelligenza artificiale stanno diventando sempre più grandi e migliori. Tuttavia, ostacoli come la scarsità di dati, i limiti fisici e l’inefficienza dei sistemi attuali potrebbero rallentare o addirittura impedire un progresso continuo. Mentre alcuni vedono un futuro di crescita esponenziale, altri prevedono un percorso ostacolato da sfide significative

Pubblicato il 19 apr 2024



LLM

I modelli linguistici di grandi dimensioni stanno diventando sempre più grandi e migliori. Ma non potranno migliorare all’infinito…

Solo 18 mesi fa, il lancio di ChatGPT ha fatto scalpore. Oggi le sue capacità sono diventate la norma. Diverse aziende – come Anthropic, Google e Meta – hanno da svelato versioni dei loro modelli – Claude, Gemini e Llama – migliorando ChatGPT in vari modi. Questa fame di novità si è solo accelerata.

A marzo Anthropic ha lanciato Claude 3, che ha superato i precedenti modelli top di Openai e Google su varie classifiche. Il 9 aprile Openai ha riconquistato la corona (su alcuni parametri) modificando il suo modello. Il 18 aprile Meta ha rilasciato Llama 3, i cui primi risultati suggeriscono che sia il modello aperto più capace prodotto fino ad oggi.

TinyLlama
Llama di Meta

L’attesa per GPT-5

È probabile che OpenAI farà scalpore quest’anno quando rilascerà GPT-5, che potrebbe avere capacità superiori a qualsiasi attuale grande modello linguistico (LLM). Stando alle voci, la prossima generazione di modelli sarà ancora più straordinaria – in grado di eseguire compiti multi-step, ad esempio, piuttosto che rispondere semplicemente a sollecitazioni o analizzare domande complesse con attenzione invece di sputare la prima risposta algoritmicamente disponibile. Per coloro che pensano che si tratti del solito hype tecnologico, considerate questo: gli investitori sono seriamente intenzionati a sostenere la prossima generazione di modelli. Si prevede che GPT-5 e altri modelli di prossima generazione costeranno miliardi di dollari per l’addestramento.

GPT-5

L’ipotesi di scalabilità

Sembra anche che OpenAI stia collaborando con Microsoft per costruire un nuovo data center da 100 miliardi di dollari. Basandosi solo sui numeri, si potrebbe pensare che il futuro riserverà una crescita esponenziale illimitata. Questo è in linea con una visione condivisa da molti ricercatori di AI chiamata “ipotesi di scalabilità”, ovvero che l’architettura degli attuali LLM sia sulla strada per sbloccare progressi fenomenali. Tutto ciò che serve per superare le capacità umane, secondo l’ipotesi, sono più dati e chip informatici più potenti.

Il collo di bottiglia dei dati

Guardando più da vicino il fronte tecnico, tuttavia, emergono alcuni ostacoli. I dati potrebbero rappresentare il collo di bottiglia più immediato. Epoch ai, gruppo di ricerca, stima che il pozzo dei dati testuali di alta qualità su internet pubblico si esaurirà entro il 2026. Questo ha lasciato i ricercatori alla ricerca di idee. Alcuni laboratori si stanno rivolgendo al web privato, acquistando dati da broker e siti di notizie. Altri si stanno rivolgendo alle enormi quantità di dati audiovisivi di internet, che potrebbero essere utilizzati per addestrare modelli sempre più grandi per decenni. Il video può essere particolarmente utile nell’insegnare ai modelli di AI la fisica del mondo che li circonda. Se un modello può osservare una palla volare nell’aria, potrebbe più facilmente elaborare l’equazione matematica che descrive il movimento del proiettile. Modelli leader come GPT-4 e Gemini sono ora “multimodali”, in grado di gestire vari tipi di dati. Quando i dati non possono più essere trovati, possono essere creati.

Aziende come Scale.ai e Surge.ai hanno costruito grandi reti di persone per generare e annotare dati, tra cui ricercatori dottorandi che risolvono problemi in matematica o biologia. Un dirigente di una startup leader nel settore dell’AI stima che questo stia costando ai laboratori di AI centinaia di milioni di dollari all’anno.

Google intelligenza artificiale

La soluzione dei dati sintetici

Un approccio più economico prevede la generazione di “dati sintetici” in cui un LLM produce miliardi di pagine di testo per addestrare un secondo modello. Tuttavia, questo metodo può incontrare problemi: i modelli addestrati in questo modo possono perdere conoscenze passate e generare risposte poco creative. Un modo più fruttuoso per addestrare i modelli AI su dati sintetici è farli apprendere attraverso la collaborazione o la competizione. I ricercatori chiamano questo “self-play”.

Nel 2017 Google DeepMind ha sviluppato un modello chiamato AlphaGo che, dopo essersi allenato contro se stesso, ha battuto il campione mondiale umano nel gioco del Go. Google e altre aziende utilizzano ora tecniche simili sui loro ultimi LLM. Estendere idee come il self-play a nuovi domini è un argomento di ricerca molto discusso. Ma la maggior parte dei problemi reali – dall’amministrazione di un’azienda all’essere un buon medico – sono più complessi di un gioco, senza mosse vincenti chiare. Ecco perché, per tali domini complessi, sono ancora necessari dati per addestrare i modelli da persone in grado di distinguere tra risposte di buona e cattiva qualità. Questo a sua volta rallenta le cose.

La soluzione hardware

Un altro percorso verso modelli più potenti è quello dell’hardware. Le unità di elaborazione grafica (GPU), originariamente progettate per i videogiochi, sono diventate il chip preferito dalla maggior parte dei programmatori AI grazie alla loro capacità di eseguire calcoli intensivi in parallelo. Un modo per sbloccare nuove capacità potrebbe risiedere nell’utilizzo di chip progettati specificamente per i modelli AI.

Cerebras ha rilasciato a marzo un prodotto contenente 50 volte più transistor della GPU più grande. La costruzione di modelli è solitamente ostacolata dal fatto che i dati devono essere continuamente caricati e scaricati dalle GPU mentre il modello viene addestrato. Il gigantesco chip di Cerebras, al contrario, ha una memoria integrata. I nuovi modelli in grado di sfruttare questi progressi saranno più affidabili e migliori nel gestire richieste difficili da parte degli utenti. Un modo in cui ciò potrebbe avvenire è attraverso finestre di contesto più grandi, la quantità di testo, immagine o video che un utente può inserire in un modello quando fa richieste. Allargare le finestre di contesto per consentire agli utenti di caricare informazioni aggiuntive pertinenti sembra anche essere un modo efficace per frenare l’allucinazione, la tendenza dei modelli AI a rispondere con sicurezza alle domande con informazioni inventate.

the-nvidia-h100-nvl-gpu-image-credit-nvidia
La GPU Nvidia H100 NVL

Ma, mentre alcuni creatori di modelli si lanciano nella corsa per più risorse, altri vedono segni che l’ipotesi di scalabilità sta incontrando problemi. I vincoli fisici – memoria insufficiente, ad esempio, o costi energetici crescenti – pongono limitazioni pratiche ai progetti di modelli più grandi. Ancora più preoccupante, non è chiaro che l’espansione delle finestre di contesto sarà sufficiente per un progresso continuo.

Yann LeCun
Yann Lecun

Yann LeCun è uno dei molti che credono che le limitazioni nei modelli AI attuali non possano essere risolte. Alcuni scienziati si stanno quindi rivolgendo a una fonte di ispirazione di lunga data nel campo dell’AI: il cervello umano. L’adulto medio può ragionare e pianificare molto meglio dei migliori LLM, nonostante utilizzi meno energia e molti meno dati.

“L’AI ha bisogno di algoritmi di apprendimento migliori, e sappiamo che sono possibili perché il tuo cervello li ha”, dice Pedro Domingos, informatico all’Università di Washington. Un problema, dice lui, è l’algoritmo con cui gli LLM imparano, chiamato backpropagation. Tutti gli LLM sono reti neurali organizzate in strati, che ricevono input e li trasformano per prevedere output. Quando l’LLM è nella sua fase di apprendimento, confronta le sue previsioni con la versione della realtà disponibile nei suoi dati di addestramento. Se queste divergono, l’algoritmo apporta piccole modifiche a ciascuno strato della rete per migliorare le previsioni future. Ciò lo rende computazionalmente intensivo e incrementale. Le reti neurali negli attuali LLM sono anche strutturate in modo inefficiente.

Le reti transformer

Dal 2017 la maggior parte dei modelli AI utilizzano un tipo di architettura di rete neurale nota come transformer (la “t” in Gpt), che ha permesso loro di stabilire relazioni tra bit di dati che sono lontani all’interno di un set di dati. Gli approcci precedenti hanno faticato a stabilire tali connessioni a lungo raggio. Se a un modello basato su transformer venisse chiesto di scrivere il testo di una canzone, ad esempio, potrebbe, nel suo codice, fare riferimento a linee di molte strofe precedenti, mentre un modello più primitivo avrebbe dimenticato tutto l’inizio entro la fine della canzone. I transformer possono anche essere eseguiti su molti processori contemporaneamente, riducendo significativamente il tempo necessario per addestrarli.

L’architettura Mamba

Albert Gu, informatico alla Carnegie Mellon University, tuttavia pensa che il tempo dei transformer potrebbe presto finire. Scalare le loro finestre di contesto è altamente inefficiente dal punto di vista computazionale: quando l’input raddoppia, la quantità di calcolo necessaria per elaborarlo quadruplica. Insieme a Tri Dao dell’Università di Princeton, Gu ha proposto un’architettura alternativa chiamata Mamba. Se, per analogia, un transformer legge tutte le pagine di un libro contemporaneamente, Mamba le legge in sequenza, aggiornando la sua visione del mondo man mano che procede. Questo non solo è più efficiente, ma si avvicina anche più al modo in cui funziona la comprensione umana.

Gli LLM hanno anche bisogno di aiuto per migliorare nel ragionamento e nella pianificazione. Andrej Karpathy, ricercatore precedentemente in OpenAI, ha spiegato in un recente discorso che gli attuali LLM sono solo capaci di “pensiero del sistema 1”. Negli esseri umani, questo è il modo automatico di pensare coinvolto nelle decisioni immediate. Al contrario, il “pensiero del sistema 2” è più lento, più cosciente e coinvolge l’iterazione. Per i sistemi AI, ciò potrebbe richiedere algoritmi in grado di qualcosa chiamato ricerca – una capacità di delineare ed esaminare molte diverse linee d’azione prima di selezionare la migliore. Questo sarebbe simile nello spirito a come i modelli AI che giocano a giochi possono scegliere le migliori mosse dopo aver esplorato diverse opzioni. La pianificazione avanzata tramite ricerca è al centro di molti sforzi attuali.

“Joint Embedding Predictive Architecture” (Jepa)

LeCun di Meta, ad esempio, sta cercando di programmare la capacità di ragionare e fare previsioni direttamente in un sistema AI.

Nel 2022 ha proposto un framework chiamato “Joint Embedding Predictive Architecture” (Jepa), che è addestrato a prevedere pezzi di testo o immagini più grandi in un solo passaggio rispetto ai modelli generativi-AI attuali. Ciò gli permette di concentrarsi sulle caratteristiche globali di un set di dati. Quando analizza immagini animali, ad esempio, un modello basato su Jepa può concentrarsi più rapidamente su dimensioni, forma e colore piuttosto che su singoli pezzi di pelliccia. La speranza è che astraggendo le cose, Jepa impari più efficientemente dei modelli generativi, che si distraggono con dettagli irrilevanti. Gli esperimenti con approcci come Mamba o Jepa rimangono l’eccezione.

Fino a quando dati e potenza di calcolo non diventeranno ostacoli insormontabili, i modelli basati su transformer rimarranno in auge. Ma mentre gli ingegneri li spingono in applicazioni sempre più complesse, l’esperienza umana rimarrà essenziale nell’etichettatura dei dati. Questo potrebbe significare un progresso più lento rispetto al passato.

Per una nuova generazione di modelli AI che stupiscano il mondo come ha fatto ChatGPT nel 2022 potrebbero essere richiesta una svolta fondamentale. ■

Articoli correlati

Articolo 1 di 3