tecnologia

I chip del futuro che guideranno la nuova stagione AI (agenti e inferenza)



Indirizzo copiato

L’inferenza AI diventerà il carico dominante nei data center, spingendo l’industria verso nuove architetture hardware. Incide anche il boom degli agenti. Ma il limite della memoria ridisegna la competizione tra chip: più SRAM, percorsi dati efficienti, integrazione memoria-calcolo e ASIC specializzati. Il futuro non sarà deciso da singoli acceleratori, ma da sistemi completi e integrati

Pubblicato il 26 mar 2026

Alessandro Longo

Direttore Ai4business.it e Agendadigitale.eu



inferenza AI chip
Fonte: Cerebras

Punti chiave

  • Il carico dominante dell’AI si sposta dal training all’inferenza; McKinsey stima che entro il 2030 l’inferenza rappresenterà la maggior parte del compute nei data center e il vero collo di bottiglia è il memory wall.
  • Risposte hardware: chip su wafer con più SRAM (es. Cerebras WSE‑3), array sistolici e design modulari (TPU, MatX), compute in‑memory (d-Matrix) e ASIC specializzati; Nvidia spinge su piattaforme eterogenee (Vera Rubin).
  • La vittoria si gioca a livello di sistema: le Cpu restano essenziali insieme a Gpu, networking e orchestrazione; il fattore decisivo sarà l’ecosistema hardware‑software e il modello di apertura del mercato.
Riassunto generato con AI

L’intelligenza artificiale sta cambiando bersaglio. Dopo due anni in cui l’attenzione si è concentrata soprattutto sull’addestramento dei modelli, il collo di bottiglia si sta spostando sull’inferenza: la fase in cui un modello già addestrato risponde a una richiesta, genera testo, codice, immagini o prende decisioni operative. McKinsey stima che entro il 2030 l’inferenza supererà il training e diventerà il carico dominante nei data center per l’AI, con un peso superiore alla metà del compute AI complessivo e pari a circa il 30-40% della domanda totale dei data center.

Questo cambio di equilibrio richiede nuovi chip, su cui ora si concentra l’industria mondiale. Vecchi e nuovi attori. Il punto è che training e inferenza chiedono cose diverse all’hardware. Addestrare un modello premia la parallelizzazione massiccia, su cui le GPU di Nvidia hanno costruito il proprio successo. Servire milioni di richieste reali, spesso con vincoli di latenza, continuità del contesto e costi per token, premia invece la capacità di muovere dati e pesi del modello in modo efficiente.

Conta molto di più l’accesso veloce alla memoria. È qui che si sta aprendo una nuova gara tra architetture. Già lo studio “AI and Memory Wall”, pubblicato nel 2024 da Amir Gholami e altri ricercatori, prevedeva il problema, di cui ora si affacciano soluzioni industriali.

Perché le Gpu non bastano più da sole

Le Gpu restano centrali, ma nell’inferenza generativa mostrano un limite noto: la memoria. Nel lavoro di Gholami e colleghi, il problema viene descritto come memory wall. In sintesi: la potenza di calcolo dei server è cresciuta molto più in fretta della banda disponibile per portare dati da e verso la memoria esterna.

Gli autori stimano che negli ultimi vent’anni le prestazioni di calcolo dei server siano cresciute di circa 3 volte ogni due anni, mentre la banda della dram e quella delle interconnessioni siano salite rispettivamente di circa 1,6 e 1,4 volte nello stesso intervallo. Nei transformer decoder, usati per gran parte degli LLM, la memoria diventa così il vincolo principale nel serving.

Nell’inferenza il sistema deve prima elaborare il prompt e poi generare la risposta token dopo token. Nella fase di generazione, il modello consulta di continuo i propri pesi e i token già prodotti. Se questi dati stanno fuori dal chip, o se devono essere richiamati troppo spesso, il tempo e l’energia spesi per spostarli iniziano a pesare quanto, o più, del calcolo puro.

È il motivo per cui il settore sta cercando chip con più memoria on-chip, percorsi dati più corti oppure architetture che riducono al minimo gli accessi alla memoria esterna.

SRAM, DRAM e SDRAM

Ci sono tre memorie che giocano un ruolo qui.

  • La DRAM è memoria dinamica: ha grande capacità e costa meno per bit, ma è più lenta dell’SRAM e richiede refresh periodici.
  • La SDRAM è una categoria di DRAM sincronizzata con il clock del sistema; in pratica, quando nei server si parla di DDR4 o DDR5, si sta parlando di forme di DDR SDRAM, quindi sempre di DRAM.
  • La SRAM, invece, è un’altra cosa. È molto più veloce, non ha bisogno dello stesso tipo di refresh della DRAM ed è usata vicino ai core di calcolo, dentro il chip, proprio perché riduce i tempi di accesso. Il rovescio della medaglia è che occupa più area di silicio e costa di più. Per questo nei processori AI si tende ad avere poca SRAM on-chip, ma velocissima, e molta DRAM off-chip, ma più lenta. Il problema dell’inferenza nasce quando i modelli sono così grandi da costringere il sistema a uscire continuamente dalla SRAM e andare a pescare nella DRAM.

Ossia: la SRAM è il tavolo di lavoro piccolo ma immediato; la DRAM/SDRAM è il magazzino molto più grande ma meno rapido da raggiungere. Nell’inferenza moderna il processore continua a fare avanti e indietro tra tavolo e magazzino.

Più questi viaggi aumentano, più crescono latenza e consumi.

Il ruolo degli agenti AI nella svolta

Giocano un ruolo anche gli agenti AI in questa svolta dei chip. Nel modello classico, l’AI è soprattutto calcolo: matrici, tensori, operazioni ripetute milioni di volte. È il territorio ideale delle GPU, come quelle prodotte da Nvidia, dove conta molto la capacità di calcolo massivo parallelo.

Nel modello “agentic”, invece, il carico di lavoro si frammenta e si complica. Ogni richiesta può attivare una catena di operazioni:

  • generazione di testo
  • chiamate a API esterne
  • accesso a database o file
  • decisioni condizionali
  • nuove richieste al modello

Questo flusso non è più lineare né omogeneo. È fatto di passaggi diversi, spesso sequenziali, con molta logica e coordinamento. Ed è qui che entrano in gioco le CPU, per la loro capacità di orchestrazione e di rapido accesso alla memoria.


Lo schema: GPU vs CPU nell’AI degli agenti

FunzioneGPUCPU
Tipo di lavoroCalcolo parallelo massivoLogica e controllo
Ruolo nell’AITraining e inferenza puraOrchestrazione e gestione
Punti di forzaThroughput elevatoFlessibilità e bassa latenza
LimitiPoco efficienti su task sequenzialiMeno efficienti su calcolo massivo
Negli agenti AIGenerano outputCoordinano azioni e flussi

Il punto chiave: l’inferenza non è più “solo inferenza”

Nell’AI tradizionale, inferenza significa produrre una risposta. Negli agenti, significa gestire un processo.

Un agente può generare un risultato, verificarlo, arricchirlo con dati esterni, modificarlo e rilanciarlo. Ogni passaggio richiede decisioni, gestione dello stato e interazioni con sistemi diversi. È un lavoro molto più vicino a quello di un sistema operativo che a un semplice motore di calcolo.

Per questo, mentre le GPU restano indispensabili, la CPU torna a essere il perno invisibile dell’intero sistema.


Perché la domanda di CPU sta crescendo

Due fattori stanno spingendo questa inversione:

Il primo è quantitativo. Gli agenti moltiplicano i processi: non c’è più una singola richiesta, ma decine o centinaia di agenti attivi contemporaneamente, ognuno con il proprio ciclo operativo.

Il secondo è qualitativo. Il carico di lavoro è sempre più irregolare: meno batch omogenei, più richieste diverse, più interazioni con l’esterno.

Il risultato è che cresce il bisogno di:

  • gestione dei thread
  • orchestrazione dei task
  • accesso rapido a memoria e storage

Tutte funzioni tipicamente CPU-bound.


La nuova architettura dell’AI

Il cambiamento in corso non ridimensiona le GPU, ma ridisegna l’intero stack.

  • Le GPU restano il “motore” del modello
  • Le CPU diventano il “regista” del sistema

È questo il motivo per cui aziende come Meta stanno investendo anche in infrastrutture CPU, perché Arm fa la grande svolta e lancia un proprio chip adesso, e perché persino Nvidia ha iniziato a proporre soluzioni senza GPU per specifici carichi legati agli agenti

Nvidia prova a difendere il centro del mercato

Nvidia ha capito che la partita si sta spostando. Il 16 marzo 2026 ha presentato la piattaforma Vera Rubin, che mette insieme Cpu, Gpu, networking, Dpu e rack dedicati all’inferenza con Groq 3 LPX. Nella comunicazione ufficiale l’azienda descrive una piattaforma pensata per coprire training, agentic AI e inferenza in tempo reale attraverso componenti diversi dello stesso sistema.

inferenza AI chip
Nvidia Vera Rubin

La mossa dice due cose. La prima: Nvidia non intende lasciare l’inferenza ai concorrenti specializzati. La seconda: anche il leader del mercato sta andando verso sistemi più eterogenei, in cui non c’è un solo chip a fare tutto, ma una catena di componenti dedicati a compiti diversi.

Questo è il segnale più importante della fase che si apre: conta sempre meno il singolo acceleratore, conta sempre di più l’architettura del sistema.

La prima risposta: chip enormi con molta memoria sul wafer

Attenzione, però. L’ingresso delle CPU in partita è solo parte della soluzione per questa nuova fase dell’AI. Servono anche chip di nuova generazione per una migliore gestione della memoria. E allo studio ci sono diverse soluzioni, però, segno che il problema è complesso e non è chiaro ancora come affrontarlo. Ma ne va del futuro dell’AI e della sua capacità di mantenere le promesse rivoluzionarie, in diversi ambiti sociali, economici, scientifici.

Una strada tentata è semplice da descrivere e molto difficile da realizzare: costruire chip molto più grandi, con una quota molto più alta di memoria sullo stesso supporto di silicio.

È la scommessa di Cerebras. Il suo Wafer-Scale Engine 3, annunciato nel marzo 2024, integra 4 trilioni di transistor, 900mila core AI e 44 GB di SRAM on-chip su un singolo wafer; Reuters e l’azienda indicano anche 125 petaflops di picco.

inferenza AI chip
Cerebras Wafer-Scale Engine 3

Il vantaggio è intuitivo: più dati restano dentro il chip, meno serve andare a pescare fuori. In carichi di inferenza questo può ridurre latenza e consumi. Il limite è altrettanto evidente: quando i modelli crescono molto, non tutto può stare nella SRAM on-chip. Per questo Cerebras continua a usare sistemi più ampi e memoria esterna, ma cerca di spostare dentro il wafer la quota di lavoro più sensibile alla latenza.

Reuters ha anche riferito che l’azienda ha posizionato il WSE-3 in offerte accoppiate a Qualcomm AI 100 Ultra per l’inferenza.

Training the largest LLMs, Cerebras Wafer-Scale Architecture | Keynote 3 | Jean-Philippe Fricker

La seconda risposta: cambiare il modo in cui scorrono i dati

Un’altra famiglia di progetti non punta solo a “più chip”, ma a percorsi dati più efficienti. Qui entra in gioco l’idea delle systolic array, usata da anni nei TPU di Google. Google spiegava già nel 2017 che il primo TPU era stato progettato come asic per accelerare la “prediction”, cioè l’inferenza, facendo scorrere i dati in una matrice di calcolo invece di rimandarli ogni volta alla memoria generale.

Su questa linea si muove MatX, startup fondata da ex ingegneri Google, che nel febbraio 2026 ha presentato il chip MatX One. L’azienda lo descrive come basato su una splittable systolic array: una griglia che può essere suddivisa in blocchi più piccoli, così da adattarsi meglio a forme e dimensioni diverse delle operazioni richieste dai modelli linguistici.

Chip MatX

Nella descrizione ufficiale, MatX sostiene che il chip combina la bassa latenza dei design “SRAM-first” con il supporto a contesti lunghi tramite hbm.

Bloomberg, secondo la nota aziendale sul round, ha riferito che la società ha raccolto più di 500 milioni di dollari.

L’idea tecnica è interessante perché l’inferenza non è uniforme. Alcune fasi premiano throughput alto, altre premiano latenza bassa e accesso rapido ai dati. Un’architettura più modulare prova a usare meglio il silicio disponibile invece di trattare ogni richiesta come se avesse lo stesso profilo. Questa è una delle direzioni più osservate del mercato.

La terza risposta: unire memoria e calcolo

La proposta più radicale, almeno tra quelle già visibili sul mercato, arriva da d-Matrix. L’azienda parla di digital in-memory compute architecture, una famiglia di soluzioni in cui memoria e calcolo vengono avvicinati il più possibile, fino a convivere nello stesso schema architetturale. L’obiettivo è ridurre i continui trasferimenti di dati che rallentano l’inferenza generativa.

Nel 2024 d-Matrix ha iniziato a spedire il suo primo chip AI, progettato proprio per gestire un gran numero di richieste simultanee in chatbot e generatori video.

L’azienda non si propone come sostituto universale di Nvidia nel training, ma come componente più efficiente per il servizio in produzione.

È un punto importante: molte delle nuove architetture non vogliono vincere ovunque, vogliono vincere nel pezzo del mercato che oggi pesa di più sulla bolletta dei data center, cioè l’inferenza continua e su larga scala.

La quarta risposta: specializzare il chip per un solo algoritmo

C’è poi la strada più aggressiva: costruire un processore che faccia bene una sola cosa. Etched sta seguendo questa via con Sohu, un asic disegnato per i transformer, cioè l’architettura che oggi regge la maggior parte dei modelli linguistici di grandi dimensioni. Nel 2024 che la società ha raccolto 120 milioni di dollari per sviluppare un chip ottimizzato per la fase di inferenza dei transformer.

Il vantaggio di un approccio così è chiaro: togliere dal chip tutto ciò che non serve ad altre reti neurali e concentrare area, energia e software su un solo schema di esecuzione.

Vi sono poi anche tentativi di codificare il modello dentro il layout hardware dei chip, come proposto dall’Accademia di scienze cinesi.

Il rischio di questi approcci così specializzati è l’obsolescenza: il design di un chip richiede molti mesi, mentre gli algoritmi AI cambiano molto più in fretta.

E le Cpu? Nell’inferenza contano più di quanto sembri

Nel racconto pubblico dell’AI, le cpu passano spesso sullo sfondo. È un errore. Le cpu non sono il pezzo “vecchio” del sistema: sono la parte che coordina, prepara, alimenta e in molti casi esegue una quota rilevante del lavoro di inferenza.

Anche la strategia di Nvidia su Vera Rubin va letta così: la piattaforma unisce Cpu, Gpu, networking, storage e acceleratori perché il servizio di inferenza non dipende da una sola categoria di chip.

Tradotto in modo semplice, la cpu fa almeno quattro lavori decisivi. Gestisce la richiesta in ingresso e il networking, coordina il dialogo con Gpu e altri acceleratori, prepara i dati ed esegue una parte del pre e post-processing. In diversi scenari può anche eseguire direttamente l’inferenza, soprattutto su modelli piccoli o medi, carichi batch o applicazioni dove la latenza estrema non è il primo vincolo.

Questa tesi compare in modo esplicito nella documentazione di diversi produttori di Cpu server.

C’è poi un altro aspetto. Nelle installazioni con gpu, la qualità della host Cpu incide sulla latenza finale. Un acceleratore molto potente può essere frenato da Cpu host lente, memoria di sistema insufficiente o cattiva gestione dell’I/O. Per questo motivo la nuova infrastruttura dell’inferenza non sarà fatta di “Gpu contro Cpu”. Sarà fatta di Cpu + acceleratori + rete + software di orchestrazione.

Il vero terreno di scontro è il sistema, non il singolo chip

Le architetture che oggi si stanno progettando per l’inferenza possono essere riassunte in quattro direzioni: chip più grandi e ricchi di SRAM, array di calcolo più flessibili, memoria e calcolo integrati, asic fortemente specializzati. Nessuna di queste, da sola, ha già vinto. Anche perché la competizione non si gioca solo sul silicio. Nvidia insiste su piattaforme complete.

Altri attori più specializzati puntano su collaborazione e integrazione aperta con attori di sistema.

La prossima guerra dei chip si deciderà non tanto sul singolo componente quanto sulla qualità dell’ecosistema software hardware. Da vedere quale prevarrà, di quali player. Se sarà chiuso o aperto.

Se ci sarà un monopolio, un oligopolio o una maggiore apertura di mercato rispetto all’attuale scenario dominato da big tech integrate verticalmente.

Tabella finale: attori e approcci

AttoreChe cosa sta facendoObiettivo tecnicoPunto di forzaRischio o limite
NvidiaPiattaforma Vera Rubin con cpu, gpu, networking, dpu e rack per inferenza con Groq 3 LPXCoprire training e inferenza con un’infrastruttura eterogeneaEcosistema completo hardware-softwareComplessità crescente del sistema e costo elevato
CerebrasWafer-Scale Engine 3 con 900.000 core AI e 44 GB di SRAM on-chipRidurre gli accessi alla memoria esterna aumentando la memoria sul waferLatenza più bassa nei carichi sensibili alla memoriaLa SRAM on-chip non basta da sola per i modelli più grandi
MatXMatX One con splittable systolic arrayAdattare meglio il calcolo a carichi diversi tra prefill e decodeUso più efficiente del silicioTecnologia ancora giovane e da validare sul mercato
d-MatrixArchitettura di digital in-memory compute per l’inferenzaRidurre il traffico dati tra memoria e calcoloEfficienza energetica e bassa latenza nei carichi di servingEcosistema meno maturo rispetto al mondo gpu
EtchedSohu, asic specializzato per transformerMassimizzare l’efficienza su una sola famiglia di modelliSpecializzazione estrema sull’inferenza transformerDipendenza dall’attuale centralità dei transformer
Cpu di nuova generazioneCpu server che orchestrano il sistema e, in alcuni casi, eseguono inferenza direttaGestire pipeline, dati, rete e carichi piccoli o medi senza acceleratori dedicatiFlessibilità, integrazione, costo totale più basso in molti scenariPrestazioni inferiori agli acceleratori su modelli molto grandi

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x