news

Hugging Face e Nvidia presentano StarCoder2, il nuovo modello di generazione del codice

Questo modello può generare codice in oltre 600 linguaggi di programmazione e, nonostante la sua compattezza, eguaglia le prestazioni del suo predecessore con un numero di parametri significativamente inferiore

Pubblicato il 7 mar 2024

Redazione

Hugging Face ha presentato l’ultima versione del suo modello di generazione del codice, StarCoder, avvalendosi dell’aiuto di Nvidia per portarlo alla luce. Il primo StarCoder, sviluppato in collaborazione con ServiceNow, è stato lanciato lo scorso maggio. Questa nuova versione, StarCoder2, può generare codice in oltre 600 linguaggi di programmazione.

Indice degli argomenti:

StarCoder2, disponibile in tre dimensioni

StarCoder2 è disponibile in tre dimensioni ma è progettato per essere piccolo – la versione più grande conta 15 miliardi di parametri – così da permettere agli sviluppatori di eseguirlo più efficientemente sui loro PC. Le nuove versioni di StarCoder sono anche più potenti: il modello più piccolo eguaglia le prestazioni del modello originale da 15 miliardi di parametri. StarCoder2-15B è il migliore nella sua categoria e si confronta con modelli doppiamente grandi. Leggi il paper tecnico.

Nvidia entra in gioco

Una novità nel progetto StarCoder è stata l’entrata di Nvidia. L’infrastruttura del gigante della produzione di chip AI è stata utilizzata per addestrare la versione da 15 miliardi di parametri. ServiceNow ha addestrato il modello da 3B mentre Hugging Face si è occupata della versione da 7B.

Nvidia ha anche utilizzato il suo framework NeMo nello sviluppo del modello StarCoder2 più grande. NeMo permette agli utenti di costruire modelli e servizi AI generativi personalizzati. Jonathan Cohen, vicepresidente della ricerca applicata presso Nvidia, ha dichiarato che il coinvolgimento dell’azienda nel progetto StarCoder “introduce modelli sicuri e sviluppati responsabilmente e supporta un accesso più ampio all’AI generativa responsabile che riteniamo beneficerà la comunità globale”.

Nuovo dataset

I modelli da 3 e 7 miliardi di parametri sono stati addestrati su 3 trilioni di token, mentre il modello da 15 miliardi è stato addestrato su oltre 4 trilioni di token. StarCoder2 è stato costruito utilizzando The Stack v2, un nuovo dataset di notevoli dimensioni per alimentare i modelli di generazione del codice. The Stack v2 è più grande di The Stack v1, con 67,5 terabyte rispetto a soli 6,4TB. The Stack v2 deriva dall’archivio Software Heritage, un archivio pubblico del codice sorgente del software. Il nuovo dataset vanta procedure migliorate per la rilevazione della lingua e delle licenze e migliori euristiche di filtraggio.

I dati presentano anche migliori euristiche di filtraggio, che Hugging Face afferma consentono l’addestramento dei modelli con contesto del repository.

Per accedere al dataset, visita Hugging Face. Per scaricarlo in blocco, gli utenti devono ottenere il permesso da Software Heritage e Inria. Poiché The Stack v2 è composto da vari codici sorgente, ci sono diverse licenze da considerare, quindi potrebbe non essere chiaro se l’intero dataset può alimentare applicazioni commerciali. Hugging Face ha compilato un elenco delle licenze pertinenti per garantire la conformità.

@RIPRODUZIONE RISERVATA