tecnologia

Meta: la nuova Llama API è 18 volte più veloce dei concorrenti

Grazie a una partnership strategica con Cerebras Systems che segna l’ingresso ufficiale di Meta nel mercato dei servizi di inferenza AI. L’annuncio è stato dato nel corso della conferenza inaugurale LlamaCon. Secondo benchmark indipendenti, il sistema Cerebras è in grado di elaborare 2.648 token al secondo per il modello Llama 4 Scout, superando ampiamente i concorrenti

Pubblicato il 30 apr 2025

Aggiungi tra i preferiti su Google

Giovanni Clericò

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Durante la conferenza inaugurale LlamaCon tenutasi a Menlo Park il 29 aprile, Meta ha annunciato una partnership con Cerebras Systems per il lancio della nuova Llama API. L’obiettivo è chiaro: competere ad armi pari con giganti come OpenAI, Anthropic e Google nel mercato dell’inferenza, un segmento in rapida espansione dove gli sviluppatori acquistano miliardi di token per alimentare le proprie applicazioni AI. La mossa rappresenta la trasformazione dei modelli Llama da risorsa open source – con oltre un miliardo di download – a servizio commerciale scalabile.

Indice degli argomenti:

La partnership fra Meta e Cerebras Systems

Il punto di forza dell’offerta di Meta risiede nelle prestazioni eccezionali dei chip Cerebras, progettati specificamente per l’intelligenza artificiale.

Secondo benchmark indipendenti, il sistema Cerebras è in grado di elaborare 2.648 token al secondo per il modello Llama 4 Scout, superando ampiamente i concorrenti: SambaNova (747 tps), Groq (600 tps) e i servizi GPU tradizionali di Google (circa 100 tps).

“Al confronto, 100 token al secondo sono accettabili per una chat, ma insufficienti per applicazioni complesse come agenti AI o ragionamento multi-step,” ha spiegato James Wang di Cerebras. La velocità della nuova API consente quindi categorie di applicazioni finora impraticabili, come agenti in tempo reale, sistemi vocali a bassa latenza, generazione interattiva di codice e ragionamento istantaneo su più passaggi.

Un nuovo modello di business per Meta: dall’open source al cloud AI

La Llama API segna un cambio di paradigma nella strategia AI di Meta. Da produttore di modelli open source, l’azienda diventa fornitore di infrastruttura AI, creando un nuovo flusso di ricavi e ampliando il proprio ruolo nell’ecosistema.

Meta offrirà strumenti per fine-tuning e valutazione dei modelli, partendo dal Llama 3.3 8B. Gli sviluppatori potranno generare dati, addestrare i propri modelli personalizzati e testarne la qualità. Importante anche la politica sulla privacy: i dati degli utenti non saranno utilizzati per addestrare i modelli di Meta, e gli sviluppatori potranno esportare i propri modelli su altre piattaforme, distinguendosi così da competitor più chiusi.

La rete nordamericana di Cerebras a supporto della nuova API

La potenza computazionale necessaria sarà fornita da data center Cerebras situati in Nord America, tra cui Dallas, Oklahoma, Minnesota, Montreal e California. Julie Shin Choi, CMO di Cerebras, ha confermato che tutte le richieste dell’API saranno servite tramite questa rete distribuita.

Il modello di business segue l’approccio classico dei fornitori di calcolo per hyperscaler: Meta ha riservato blocchi dedicati di capacità che potrà assegnare ai suoi utenti sviluppatori.

Non solo Cerebras: anche Groq tra i partner per l’inferenza veloce

Oltre a Cerebras, Meta ha siglato un’altra collaborazione con Groq, offrendo così più alternative per l’inferenza ad alte prestazioni oltre ai classici sistemi basati su GPU. L’obiettivo è quello di fornire agli sviluppatori un ventaglio di opzioni flessibili e ultra-performanti, a seconda delle esigenze specifiche delle applicazioni.

Un cambiamento epocale: come la velocità cambia le regole del gioco

Secondo le slide presentate da Cerebras, la combinazione tra i modelli open source di Meta e l’hardware ad alte prestazioni consente un salto prestazionale di circa 20 volte rispetto ai leader attuali del settore, come OpenAI e Google. Meta entra così in una posizione strategica unica, con 3 miliardi di utenti, data center hyperscale e una comunità globale di sviluppatori.

Per Cerebras, la partnership rappresenta un momento di svolta commerciale: “Abbiamo costruito il nostro motore wafer-scale per anni. Finalmente, lo vediamo integrato nel cloud di un hyperscaler globale,” ha affermato Wang.

Come accedere alla nuova Llama API

La nuova API è attualmente disponibile in anteprima limitata, con un rilascio graduale previsto nei prossimi mesi. Gli sviluppatori interessati possono richiedere l’accesso selezionando Cerebras tra le opzioni del pannello Llama API di Meta.

Basta generare una chiave API e attivare l’opzione Cerebras per vedere i propri token elaborati con velocità record.

La velocità è la nuova frontiera dell’intelligenza artificiale

La partnership tra Meta e Cerebras mostra che nel prossimo futuro dell’AI non conterà solo ciò che un modello sa, ma anche quanto velocemente può pensare. Con la nuova Llama API, Meta promette di rendere possibile ciò che prima era inimmaginabile: esperienze AI istantanee, complesse e fluide.

In questa nuova era, la velocità non è solo una caratteristica: è l’intero punto di svolta. E Meta, con il suo ecosistema e la sua potenza computazionale, è pronta a cambiare le regole del gioco.

@RIPRODUZIONE RISERVATA

Giovanni Clericò

Aziende

M
Meta

Argomenti

Canali

Meta: la nuova Llama API è 18 volte più veloce dei concorrenti

La partnership fra Meta e Cerebras Systems

Un nuovo modello di business per Meta: dall’open source al cloud AI

La rete nordamericana di Cerebras a supporto della nuova API

Non solo Cerebras: anche Groq tra i partner per l’inferenza veloce

Un cambiamento epocale: come la velocità cambia le regole del gioco

Come accedere alla nuova Llama API

La velocità è la nuova frontiera dell’intelligenza artificiale

Giovanni Clericò

Leggi anche:

Articoli correlati

I chip del futuro che guideranno la nuova stagione AI (agenti e inferenza)

Codice Rss

Codice Rss