tecnologia

I nuovi chip che guideranno la stagione dell’inferenza AI



Indirizzo copiato

L’inferenza AI diventerà il carico dominante nei data center, spingendo l’industria verso nuove architetture hardware. Il limite della memoria (“memory wall”) ridisegna la competizione tra chip: più SRAM, percorsi dati efficienti, integrazione memoria-calcolo e ASIC specializzati. Il futuro non sarà deciso da singoli acceleratori, ma da sistemi completi e integrati

Pubblicato il 26 mar 2026

Alessandro Longo

Direttore AI4business.it e Agenda Digitale



inferenza AI chip
Fonte: Cerebras

Punti chiave

  • Il carico dominante dell’AI si sposta dal training all’inferenza; McKinsey stima che entro il 2030 l’inferenza rappresenterà la maggior parte del compute nei data center e il vero collo di bottiglia è il memory wall.
  • Risposte hardware: chip su wafer con più SRAM (es. Cerebras WSE‑3), array sistolici e design modulari (TPU, MatX), compute in‑memory (d-Matrix) e ASIC specializzati; Nvidia spinge su piattaforme eterogenee (Vera Rubin).
  • La vittoria si gioca a livello di sistema: le Cpu restano essenziali insieme a Gpu, networking e orchestrazione; il fattore decisivo sarà l’ecosistema hardware‑software e il modello di apertura del mercato.
Riassunto generato con AI

L’intelligenza artificiale sta cambiando bersaglio. Dopo due anni in cui l’attenzione si è concentrata soprattutto sull’addestramento dei modelli, il collo di bottiglia si sta spostando sull’inferenza: la fase in cui un modello già addestrato risponde a una richiesta, genera testo, codice, immagini o prende decisioni operative. McKinsey stima che entro il 2030 l’inferenza supererà il training e diventerà il carico dominante nei data center per l’AI, con un peso superiore alla metà del compute AI complessivo e pari a circa il 30-40% della domanda totale dei data center.

Questo cambio di equilibrio richiede nuovi chip, su cui ora si concentra l’industria mondiale. Vecchi e nuovi attori. Il punto è che training e inferenza chiedono cose diverse all’hardware. Addestrare un modello premia la parallelizzazione massiccia, su cui le GPU di Nvidia hanno costruito il proprio successo. Servire milioni di richieste reali, spesso con vincoli di latenza, continuità del contesto e costi per token, premia invece la capacità di muovere dati e pesi del modello in modo efficiente.

Conta molto di più l’accesso veloce alla memoria. È qui che si sta aprendo una nuova gara tra architetture. Già lo studio “AI and Memory Wall”, pubblicato nel 2024 da Amir Gholami e altri ricercatori, prevedeva il problema, di cui ora si affacciano soluzioni industriali.

Perché le Gpu non bastano più da sole

Le Gpu restano centrali, ma nell’inferenza generativa mostrano un limite noto: la memoria. Nel lavoro di Gholami e colleghi, il problema viene descritto come memory wall. In sintesi: la potenza di calcolo dei server è cresciuta molto più in fretta della banda disponibile per portare dati da e verso la memoria esterna.

Gli autori stimano che negli ultimi vent’anni le prestazioni di calcolo dei server siano cresciute di circa 3 volte ogni due anni, mentre la banda della dram e quella delle interconnessioni siano salite rispettivamente di circa 1,6 e 1,4 volte nello stesso intervallo. Nei transformer decoder, usati per gran parte degli LLM, la memoria diventa così il vincolo principale nel serving.

Nell’inferenza il sistema deve prima elaborare il prompt e poi generare la risposta token dopo token. Nella fase di generazione, il modello consulta di continuo i propri pesi e i token già prodotti. Se questi dati stanno fuori dal chip, o se devono essere richiamati troppo spesso, il tempo e l’energia spesi per spostarli iniziano a pesare quanto, o più, del calcolo puro.

È il motivo per cui il settore sta cercando chip con più memoria on-chip, percorsi dati più corti oppure architetture che riducono al minimo gli accessi alla memoria esterna.

SRAM, DRAM e SDRAM

Ci sono tre memorie che giocano un ruolo qui.

  • La DRAM è memoria dinamica: ha grande capacità e costa meno per bit, ma è più lenta dell’SRAM e richiede refresh periodici.
  • La SDRAM è una categoria di DRAM sincronizzata con il clock del sistema; in pratica, quando nei server si parla di DDR4 o DDR5, si sta parlando di forme di DDR SDRAM, quindi sempre di DRAM.
  • La SRAM, invece, è un’altra cosa. È molto più veloce, non ha bisogno dello stesso tipo di refresh della DRAM ed è usata vicino ai core di calcolo, dentro il chip, proprio perché riduce i tempi di accesso. Il rovescio della medaglia è che occupa più area di silicio e costa di più. Per questo nei processori AI si tende ad avere poca SRAM on-chip, ma velocissima, e molta DRAM off-chip, ma più lenta. Il problema dell’inferenza nasce quando i modelli sono così grandi da costringere il sistema a uscire continuamente dalla SRAM e andare a pescare nella DRAM.

Ossia: la SRAM è il tavolo di lavoro piccolo ma immediato; la DRAM/SDRAM è il magazzino molto più grande ma meno rapido da raggiungere. Nell’inferenza moderna il processore continua a fare avanti e indietro tra tavolo e magazzino.

Più questi viaggi aumentano, più crescono latenza e consumi.

Nvidia prova a difendere il centro del mercato

Nvidia ha capito che la partita si sta spostando. Il 16 marzo 2026 ha presentato la piattaforma Vera Rubin, che mette insieme Cpu, Gpu, networking, Dpu e rack dedicati all’inferenza con Groq 3 LPX. Nella comunicazione ufficiale l’azienda descrive una piattaforma pensata per coprire training, agentic AI e inferenza in tempo reale attraverso componenti diversi dello stesso sistema.

inferenza AI chip
Nvidia Vera Rubin

La mossa dice due cose. La prima: Nvidia non intende lasciare l’inferenza ai concorrenti specializzati. La seconda: anche il leader del mercato sta andando verso sistemi più eterogenei, in cui non c’è un solo chip a fare tutto, ma una catena di componenti dedicati a compiti diversi.

Questo è il segnale più importante della fase che si apre: conta sempre meno il singolo acceleratore, conta sempre di più l’architettura del sistema.

La prima risposta: chip enormi con molta memoria sul wafer

Allo studio ci sono diverse soluzioni, però, segno che il problema è complesso e non è chiaro ancora come affrontarlo. Ma ne va del futuro dell’AI e della sua capacità di mantenere le promesse rivoluzionarie, in diversi ambiti sociali, economici, scientifici.

Una strada tentata è semplice da descrivere e molto difficile da realizzare: costruire chip molto più grandi, con una quota molto più alta di memoria sullo stesso supporto di silicio.

È la scommessa di Cerebras. Il suo Wafer-Scale Engine 3, annunciato nel marzo 2024, integra 4 trilioni di transistor, 900mila core AI e 44 GB di SRAM on-chip su un singolo wafer; Reuters e l’azienda indicano anche 125 petaflops di picco.

inferenza AI chip
Cerebras Wafer-Scale Engine 3

Il vantaggio è intuitivo: più dati restano dentro il chip, meno serve andare a pescare fuori. In carichi di inferenza questo può ridurre latenza e consumi. Il limite è altrettanto evidente: quando i modelli crescono molto, non tutto può stare nella SRAM on-chip. Per questo Cerebras continua a usare sistemi più ampi e memoria esterna, ma cerca di spostare dentro il wafer la quota di lavoro più sensibile alla latenza.

Reuters ha anche riferito che l’azienda ha posizionato il WSE-3 in offerte accoppiate a Qualcomm AI 100 Ultra per l’inferenza.

Training the largest LLMs, Cerebras Wafer-Scale Architecture | Keynote 3 | Jean-Philippe Fricker

La seconda risposta: cambiare il modo in cui scorrono i dati

Un’altra famiglia di progetti non punta solo a “più chip”, ma a percorsi dati più efficienti. Qui entra in gioco l’idea delle systolic array, usata da anni nei TPU di Google. Google spiegava già nel 2017 che il primo TPU era stato progettato come asic per accelerare la “prediction”, cioè l’inferenza, facendo scorrere i dati in una matrice di calcolo invece di rimandarli ogni volta alla memoria generale.

Su questa linea si muove MatX, startup fondata da ex ingegneri Google, che nel febbraio 2026 ha presentato il chip MatX One. L’azienda lo descrive come basato su una splittable systolic array: una griglia che può essere suddivisa in blocchi più piccoli, così da adattarsi meglio a forme e dimensioni diverse delle operazioni richieste dai modelli linguistici.

Chip MatX

Nella descrizione ufficiale, MatX sostiene che il chip combina la bassa latenza dei design “SRAM-first” con il supporto a contesti lunghi tramite hbm.

Bloomberg, secondo la nota aziendale sul round, ha riferito che la società ha raccolto più di 500 milioni di dollari.

L’idea tecnica è interessante perché l’inferenza non è uniforme. Alcune fasi premiano throughput alto, altre premiano latenza bassa e accesso rapido ai dati. Un’architettura più modulare prova a usare meglio il silicio disponibile invece di trattare ogni richiesta come se avesse lo stesso profilo. Questa è una delle direzioni più osservate del mercato.

La terza risposta: unire memoria e calcolo

La proposta più radicale, almeno tra quelle già visibili sul mercato, arriva da d-Matrix. L’azienda parla di digital in-memory compute architecture, una famiglia di soluzioni in cui memoria e calcolo vengono avvicinati il più possibile, fino a convivere nello stesso schema architetturale. L’obiettivo è ridurre i continui trasferimenti di dati che rallentano l’inferenza generativa.

Nel 2024 d-Matrix ha iniziato a spedire il suo primo chip AI, progettato proprio per gestire un gran numero di richieste simultanee in chatbot e generatori video.

L’azienda non si propone come sostituto universale di Nvidia nel training, ma come componente più efficiente per il servizio in produzione.

È un punto importante: molte delle nuove architetture non vogliono vincere ovunque, vogliono vincere nel pezzo del mercato che oggi pesa di più sulla bolletta dei data center, cioè l’inferenza continua e su larga scala.

La quarta risposta: specializzare il chip per un solo algoritmo

C’è poi la strada più aggressiva: costruire un processore che faccia bene una sola cosa. Etched sta seguendo questa via con Sohu, un asic disegnato per i transformer, cioè l’architettura che oggi regge la maggior parte dei modelli linguistici di grandi dimensioni. Nel 2024 che la società ha raccolto 120 milioni di dollari per sviluppare un chip ottimizzato per la fase di inferenza dei transformer.

Il vantaggio di un approccio così è chiaro: togliere dal chip tutto ciò che non serve ad altre reti neurali e concentrare area, energia e software su un solo schema di esecuzione.

Vi sono poi anche tentativi di codificare il modello dentro il layout hardware dei chip, come proposto dall’Accademia di scienze cinesi.

Il rischio di questi approcci così specializzati è l’obsolescenza: il design di un chip richiede molti mesi, mentre gli algoritmi AI cambiano molto più in fretta.

E le Cpu? Nell’inferenza contano più di quanto sembri

Nel racconto pubblico dell’AI, le cpu passano spesso sullo sfondo. È un errore. Le cpu non sono il pezzo “vecchio” del sistema: sono la parte che coordina, prepara, alimenta e in molti casi esegue una quota rilevante del lavoro di inferenza.

Anche la strategia di Nvidia su Vera Rubin va letta così: la piattaforma unisce Cpu, Gpu, networking, storage e acceleratori perché il servizio di inferenza non dipende da una sola categoria di chip.

Tradotto in modo semplice, la cpu fa almeno quattro lavori decisivi. Gestisce la richiesta in ingresso e il networking, coordina il dialogo con Gpu e altri acceleratori, prepara i dati ed esegue una parte del pre e post-processing. In diversi scenari può anche eseguire direttamente l’inferenza, soprattutto su modelli piccoli o medi, carichi batch o applicazioni dove la latenza estrema non è il primo vincolo.

Questa tesi compare in modo esplicito nella documentazione di diversi produttori di Cpu server.

C’è poi un altro aspetto. Nelle installazioni con gpu, la qualità della host Cpu incide sulla latenza finale. Un acceleratore molto potente può essere frenato da Cpu host lente, memoria di sistema insufficiente o cattiva gestione dell’I/O. Per questo motivo la nuova infrastruttura dell’inferenza non sarà fatta di “Gpu contro Cpu”. Sarà fatta di Cpu + acceleratori + rete + software di orchestrazione.

Il vero terreno di scontro è il sistema, non il singolo chip

Le architetture che oggi si stanno progettando per l’inferenza possono essere riassunte in quattro direzioni: chip più grandi e ricchi di SRAM, array di calcolo più flessibili, memoria e calcolo integrati, asic fortemente specializzati. Nessuna di queste, da sola, ha già vinto. Anche perché la competizione non si gioca solo sul silicio. Nvidia insiste su piattaforme complete.

Altri attori più specializzati puntano su collaborazione e integrazione aperta con attori di sistema.

La prossima guerra dei chip si deciderà non tanto sul singolo componente quanto sulla qualità dell’ecosistema software hardware. Da vedere quale prevarrà, di quali player. Se sarà chiuso o aperto.

Se ci sarà un monopolio, un oligopolio o una maggiore apertura di mercato rispetto all’attuale scenario dominato da big tech integrate verticalmente.

Tabella finale: attori e approcci

AttoreChe cosa sta facendoObiettivo tecnicoPunto di forzaRischio o limite
NvidiaPiattaforma Vera Rubin con cpu, gpu, networking, dpu e rack per inferenza con Groq 3 LPXCoprire training e inferenza con un’infrastruttura eterogeneaEcosistema completo hardware-softwareComplessità crescente del sistema e costo elevato
CerebrasWafer-Scale Engine 3 con 900.000 core AI e 44 GB di SRAM on-chipRidurre gli accessi alla memoria esterna aumentando la memoria sul waferLatenza più bassa nei carichi sensibili alla memoriaLa SRAM on-chip non basta da sola per i modelli più grandi
MatXMatX One con splittable systolic arrayAdattare meglio il calcolo a carichi diversi tra prefill e decodeUso più efficiente del silicioTecnologia ancora giovane e da validare sul mercato
d-MatrixArchitettura di digital in-memory compute per l’inferenzaRidurre il traffico dati tra memoria e calcoloEfficienza energetica e bassa latenza nei carichi di servingEcosistema meno maturo rispetto al mondo gpu
EtchedSohu, asic specializzato per transformerMassimizzare l’efficienza su una sola famiglia di modelliSpecializzazione estrema sull’inferenza transformerDipendenza dall’attuale centralità dei transformer
Cpu di nuova generazioneCpu server che orchestrano il sistema e, in alcuni casi, eseguono inferenza direttaGestire pipeline, dati, rete e carichi piccoli o medi senza acceleratori dedicatiFlessibilità, integrazione, costo totale più basso in molti scenariPrestazioni inferiori agli acceleratori su modelli molto grandi

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x