analisi

I nuovi modelli linguistici a caccia di dati



Indirizzo copiato

Le aziende che sviluppano intelligenza artificiale si stanno confrontando con una nuova sfida: Internet potrebbe non fornire abbastanza dati per addestrare i modelli di prossima generazione. Società come OpenAI e Anthropic stanno cercando nuove fonti di informazioni, ripensando al modo in cui addestrano i loro modelli e sperimentando l’uso di dati sintetici

Pubblicato il 3 apr 2024



Machine Learning cos’è, dai dati alle decisioni

L’intelligenza artificiale è sempre più affamata di dati e, per quanto vasto, Internet potrebbe non bastare più. Società come OpenAI e Anthropic stanno cercando di trovare abbastanza informazioni per addestrare i modelli di intelligenza artificiale di prossima generazione. Le aziende in corsa per sviluppare un’intelligenza artificiale più potente si stanno rapidamente avvicinando a un nuovo problema: Internet potrebbe essere troppo piccola per i loro piani. Sistemi sempre più potenti sviluppati da OpenAI, Google e altri richiedono oceani sempre più vasti di informazioni da cui apprendere.

Le aziende di AI stanno sperimentando l’uso di dati sintetici

Questa domanda sta mettendo sotto pressione la disponibilità di dati pubblici online di qualità, proprio mentre alcuni proprietari di dati stanno bloccando l’accesso alle aziende AI. Alcuni dirigenti e ricercatori sostengono che la necessità del settore di dati testuali di alta qualità potrebbe superare l’offerta entro due anni, rallentando potenzialmente lo sviluppo dell’AI. Le aziende AI sono alla ricerca di fonti d’informazione inesplorate e stanno ripensando al modo in cui addestrano questi sistemi. OpenAI, il produttore del ChatGPT, ha discusso dell’addestramento del suo prossimo modello, GPT-5, su trascrizioni dei video pubblici su YouTube, hanno riferito persone a conoscenza della questione. Le aziende stanno anche sperimentando l’utilizzo dei dati generati dall’AI, o sintetici, come materiale formativo, un approccio che molti ricercatori dicono potrebbe effettivamente causare malfunzionamenti paralizzanti. Questi sforzi sono spesso segreti, perché i dirigenti pensano che le soluzioni potrebbero rappresentare un vantaggio competitivo.

La carenza di dati “è un problema di ricerca di frontiera”, ha detto Ari Morcos, un ricercatore AI che ha lavorato presso Meta Platforms e l’unità DeepMind di Google prima di fondare DatologyAI lo scorso anno. La sua azienda, il cui sostegno include numerosi pionieri dell’IA, costruisce strumenti per migliorare la selezione dei dati, che potrebbero aiutare le aziende a formare modelli AI a costi inferiori. “Non esiste un modo consolidato per fare questo”. I dati sono tra le varie risorse essenziali dell’AI in corto rifornimento.

GPT-5

Oltre ai dati, mancano anche i chip per l’AI

Anche i chip necessari per far funzionare ciò che viene chiamato modelli di linguaggio grande dietro ChatGPT, Gemini di Google e altri bot AI sono scarsi. E i leader del settore si preoccupano della mancanza di data center e dell’elettricità necessaria per alimentarli. I modelli linguistici AI vengono costruiti utilizzando testo aspirato da Internet, compresi la ricerca scientifica, gli articoli di notizie e le voci di Wikipedia. Quel materiale viene suddiviso in token – parole e parti di parole che i modelli usano per imparare a formulare espressioni umane. In generale, i modelli AI diventano più capaci quanto più dati su cui si allenano. OpenAI ha scommesso in grande su questo approccio, aiutandola a diventare l’azienda AI più prominente. OpenAI non divulga i dettagli del materiale di addestramento per il suo modello linguistico più avanzato attuale, chiamato GPT-4, che ha fissato lo standard per i sistemi AI generativi avanzati.

nvidia-a100-80gb-2c50-l

Per GPT-5 potrebbero mancare dai 10 ai 20mila miliardi di token

Pablo Villalobos, che studia l’intelligenza artificiale per l’istituto di ricerca Epoch, ha stimato che GPT-4 è stato addestrato su ben 12mila miliardi di token. Basandosi su un principio informatico chiamato leggi di scala Chinchilla, un sistema AI come GPT-5 avrebbe bisogno da 60 a 100mila miliardi di token di dati se i ricercatori continuassero a seguire la traiettoria di crescita attuale, hanno stimato Villalobos e altri ricercatori. Sfruttare tutti i dati linguistici e d’immagine di alta qualità disponibili potrebbe comunque lasciare un deficit da 10 a 20mila miliardi di token o più, ha detto Villalobos. E non è chiaro come colmare quel divario. Due anni fa, Villalobos e i suoi colleghi scrissero che c’era il 50% di possibilità che la domanda di dati di alta qualità superasse l’offerta entro la metà del 2024 e il 90% di possibilità che accadesse entro il 2026. Da allora sono diventati un po’ più ottimisti e prevedono di aggiornare la loro stima al 2028.

La maggior parte dei dati disponibili online è inutile per l’addestramento AI perché contiene difetti come frammenti di frasi o non aggiunge alla conoscenza di un modello. Villalobos ha stimato che solo una piccola parte di Internet è utile per tale addestramento, forse solo un decimo delle informazioni raccolte dalla Common Crawl senza scopo di lucro, il cui archivio web è ampiamente utilizzato dagli sviluppatori AI. Allo stesso tempo, le piattaforme di social media, gli editori di notizie e altri hanno limitato l’accesso ai loro dati per l’addestramento AI a causa di preoccupazioni riguardanti questioni come la giusta remunerazione. E c’è poca volontà pubblica di consegnare dati conversazionali privati, come le chat su iMessage, per aiutare a formare questi modelli.

Mark Zuckerberg ha recentemente elogiato l’accesso ai dati sulle sue piattaforme da parte di Meta come un vantaggio significativo nei suoi sforzi AI. Ha detto che Meta può estrarre centinaia di miliardi di immagini e video condivisi pubblicamente attraverso le sue reti, tra cui Facebook e Instagram, che sono collettivamente più grandi della maggior parte dei set di dati comunemente utilizzati. Non è chiaro quale percentuale di tali dati sarebbe considerata di alta qualità.

La strategia “dell’apprendimento del curriculum”

Una strategia utilizzata da DatologyAI, la startup degli strumenti per la selezione dei dati, si chiama apprendimento del curriculum, in cui i dati vengono forniti ai modelli linguistici in un ordine specifico nella speranza che l’AI formi connessioni più intelligenti tra i concetti. In un documento del 2022, Morcos di DatologyAI e coautori hanno stimato che i modelli possono ottenere gli stessi risultati con metà dei dati, se si tratta dei dati giusti, riducendo potenzialmente l’enorme costo di addestramento e funzionamento dei grandi sistemi AI generativi. Altre ricerche finora suggeriscono che il metodo dell’apprendimento del curriculum non sia stato efficace, ma Morcos dice che stanno continuando ad adattare il loro approccio. “Questo è il segreto sporco dell’apprendimento profondo: è come lanciare spaghetti contro il muro”, ha detto Morcos. Alcune aziende tecnologiche, tra cui Microsoft partner di OpenAI, stanno costruendo modelli linguistici più piccoli che sono una frazione delle dimensioni di GPT-4 ma potrebbero raggiungere obiettivi specifici.

OpenAI lavora a nuovi metodi per addestrare i futuri modelli

Sam Altman, CEO di OpenAI, ha indicato che l’azienda sta lavorando su nuovi metodi per addestrare i futuri modelli. “Penso che siamo alla fine dell’era in cui ci saranno questi giganteschi modelli”, ha detto durante una conferenza lo scorso anno. “E li miglioreremo in altri modi”. OpenAI ha anche discusso della creazione di un mercato dei dati dove potrebbe costruire un modo per attribuire quanto valore ogni singolo punto dati contribuisce al modello finale addestrato e pagare il fornitore di quel contenuto, hanno detto persone a conoscenza della questione. La stessa idea è in discussione all’interno di Google. Ma i ricercatori finora hanno faticato a costruire un tale sistema e non è chiaro se troveranno mai una svolta.

OpenAI sta anche lavorando per raccogliere tutto ciò che è utile che è già là fuori. I dirigenti hanno discusso di trascrivere esempi di alta qualità di video e audio su Internet utilizzando Whisper, il suo strumento di riconoscimento automatico della voce, hanno detto persone a conoscenza della questione. Alcuni di questi sarebbero attraverso video pubblici su YouTube, una parte dei quali sono già stati utilizzati per addestrare GPT-4.

“I nostri set di dati sono unici e li curiamo per aiutare la comprensione del mondo dei nostri modelli”, ha detto una portavoce di OpenAI, aggiungendo che attinge da contenuti disponibili al pubblico e ottiene dati non pubblici attraverso partnership. Google non ha risposto a una richiesta di commento. Le aziende stanno anche sperimentando la creazione dei propri dati. Alimentare un modello con testo generato dall’AI è considerato la versione informatica dell’incrocio consanguineo. Un tale modello tende a produrre assurdità, che alcuni ricercatori chiamano “collasso del modello”.

Un esperimento ha messo in crisi i modelli linguistici

In un esperimento, discusso in un documento di ricerca lo scorso anno, ricercatori canadesi e britannici hanno scoperto che la generazione successiva di un tale modello, quando gli è stato chiesto di discutere dell’architettura inglese del XIV secolo, ha balbettato su specie inesistenti di lepri. I ricercatori di OpenAI e Anthropic stanno cercando di evitare questi problemi creando cosiddetti dati sintetici di qualità superiore. In un’intervista recente, il capo scienziato di Anthropic, Jared Kaplan, ha detto che alcuni tipi di dati sintetici possono essere utili. Anthropic ha dichiarato di aver utilizzato “dati che generiamo internamente” per informare le ultime versioni dei suoi modelli Claude.

Anche OpenAI sta esplorando la generazione di dati sintetici, ha detto la portavoce. Molti che studiano la questione dei dati sono in definitiva ottimisti sul fatto che emergeranno soluzioni. Villalobos lo paragona al “picco del petrolio”, la paura che la produzione petrolifera potesse raggiungere il picco e iniziare un crollo economicamente doloroso. Quella preoccupazione si è rivelata infondata grazie a nuove tecnologie, come il fracking nei primi anni 2000. È possibile che il mondo dell’AI possa vedere uno sviluppo simile.

Articoli correlati

Articolo 1 di 3