tecnologia

nGPT: cos’è il Trasformatore normalizzato con apprendimento della rappresentazione sull’ipersfera



Indirizzo copiato

Un gruppo di ricercatori di Nvidia ne ha pubblicato lo studio su Arxiv il 1° ottobre 2024. Gli esperimenti dimostrano che nGPT apprende molto più velocemente rispetto a GPT, riducendo il numero di fasi di addestramento necessarie per ottenere la stessa precisione di un fattore compreso tra 4 e 20, a seconda della lunghezza della sequenza

Pubblicato il 24 ott 2024



nGPT

nGPT, è la nuova sigla che si affaccia nel panorama dell’intelligenza artificiale attuale. Un gruppo di autori, ricercatori che lavorano per Nvidia – Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun e Boris Ginsburg – hanno pubblicato il 1° ottobre 2024 su Arxiv lo studio di una nuova architettura di rete neurale: il Trasformatore normalizzato (nGPT) con apprendimento della rappresentazione sull’ipersfera.

Continua a leggere questo articolo

Articoli correlati