Negli anni scorsi si è spesso detto che “l’AI è limitata solo dalla nostra immaginazione”; oggi suona meno vero. Anche con idee brillanti e modelli all’avanguardia, senza la potenza di calcolo necessaria l’AI non scala. Tra 2024 e 2025, la domanda di hardware AI – specialmente GPU per training e inferenza – è esplosa a livelli tali da superare la capacità produttiva globale.
Un rapporto del dicembre 2025 evidenziava un fatto sorprendente: sia AMD che Nvidia (tradizionali rivali) concordavano pubblicamente che la domanda di capacità di calcolo AI supererà strutturalmente l’offerta almeno fino al 2026. Questo non è un normale ciclo di mercato, ma un’asimmetria persistente dovuta all’appetito quasi insaziabile degli hyperscaler (i grandi cloud provider e aziende AI) a fronte di tempi lunghi per costruire nuova infrastruttura.
In altri termini, abbiamo raggiunto un punto in cui la limitazione non è sapere come fare un modello migliore, ma avere abbastanza risorse per eseguirlo.
Una testimonianza concreta: nel 2025 OpenAI ha ritardato il rilascio di un suo modello video (Sora) citando capacità computazionali limitate per gestire l’accesso pubblico. Allo stesso modo, Google ha inizialmente reso disponibile il modello video Veo 2 solo a un gruppo selezionato, per motivi simili.
Sono segnali di quanto perfino i leader debbano razionare l’uso delle proprie “macchine” AI.
Indice degli argomenti:
Il collo di bottiglia hardware
Un elemento fondamentale del collo di bottiglia hardware è la memoria ad alta banda (HBM) e i circuiti di interconnessione. Gli algoritmi di deep learning richiedono non solo tanti calcoli, ma di trasferire enormi volumi di dati tra memoria e processore velocemente. Si parla del muro della memoria (“memory wall”) come ostacolo: per molti carichi di lavoro AI, la velocità con cui i dati possono essere spostati dalla RAM alla GPU è il fattore limitante, più del numero di operazioni per secondo del core di calcolo. Non a caso, molte innovazioni hardware recenti puntano a ridurre questo gap: chip 3D che stackano memoria e logica assieme per accorciare i percorsi dati, nuove interfacce come NVLink o InfiniBand di nuova generazione per i data center AI. Nel dicembre 2025 è stata annunciata una nuova architettura di chip 3D integrato che promette di superare uno dei principali colli di bottiglia di dati interni ai processori AI.
La geopolitica della tecnologia
Ma l’indicatore più macroscopico dell’importanza del “fattore chip” è la geopolitica della tecnologia. Gli Stati Uniti, riconoscendo l’importanza strategica dei chip AI, hanno imposto restrizioni severe all’export di semiconduttori avanzati verso la Cina già dal 2022 e ulteriormente nel 2023-24, cercando di mantenere un vantaggio sul fronte computazionale. Questo ha scatenato reazioni: la Cina ha accelerato i piani per produrre chip avanzati in autonomia, e paesi come l’India o blocchi come l’Unione Europea hanno lanciato piani miliardari (EU Chips Act, ecc.) per sviluppare capacità proprie. Siamo in una sorta di “corsa agli armamenti computazionali”: chi possiede i chip più avanzati e in maggior numero può spingere l’AI più lontano.
In azienda, questo scenario si traduce in due situazioni nuove:
- Costo e disponibilità dei chip nel budgeting: pianificare un progetto AI su larga scala significa mettere in conto milioni (talvolta decine di milioni) in spesa di calcolo su cloud o nell’acquisto di hardware dedicato. Non era scontato fino a pochi anni fa, quando molte PoC giravano su risorse condivise. Nel 2026 i CFO analizzano con attenzione i cloud bills dell’AI, perché sono diventati significativi. Startup e aziende che hanno tardato ad assicurarsi accesso a GPU/Tensor core in cloud hanno dovuto mettersi in fila o ridimensionare le ambizioni.
- Lead time per infrastrutture: se un’azienda ordina un nuovo cluster di GPU, non lo riceve in pochi giorni. Nvidia ha tempi di consegna di 6-9 mesi per alcuni sistemi AI di punta, dato il backlog. I grandi cloud provider pianificano con orizzonti pluriennali la costruzione di nuovi data center AI. Questo obbliga i leader a pensare in anticipo: non si può decidere all’ultimo minuto di quadruplicare la capacità AI sperando che l’infrastruttura magicamente sia disponibile. Come riportato da Rivista AI, Nvidia stessa dichiara tempi di attesa di 9-12 mesi e gli hyperscaler pianificano su anni, con l’effetto di stabilizzare sì la supply chain ma rendere esplicito che ci muoviamo in un mercato a capacità contingentata.
Energia: il “megawatt” come unità di misura dell’AI
Strettamente legato ai chip è il tema energia. La computazione AI su larga scala consuma quantità enormi di elettricità. Uno studio ha stimato che i server ottimizzati per AI hanno costituito circa il 21% del consumo elettrico dei data center nel 2025 e che questa quota potrebbe salire al 44% entro il 2030. Dunque quasi metà dell’energia dei data center, che già di per sé sono responsabili di una porzione crescente del consumo mondiale, sarà assorbita da carichi AI.
Già nel 2025 negli Stati Uniti i data center (trainati dall’AI) hanno causato un +22% di domanda di energia elettrica, invertendo due decenni di stagnazione dei consumi energetici nazionali. Questo significa che l’AI sta diventando un fattore macroeconomico anche per la pianificazione delle reti elettriche e della produzione di energia. Non a caso, nel 2025 per la prima volta in 20 anni la domanda elettrica USA è tornata a crescere fortemente, spinta proprio dall’AI e dal cloud.
Nvidia (azienda simbolo dell’AI hardware) ha più volte sottolineato che “la potenza computazionale non nasce dal silicio, ma dai megawatt”. In un summit di settore, i rappresentanti di AMD e Intel hanno concordato che l’accesso all’energia elettrica è il vero fattore limitante della corsa all’AI. Puoi avere i migliori chip del mondo, ma se non puoi alimentarli e raffreddarli adeguatamente, restano scatole inutili.
Datacenter che consumano oltre 100 Megawatt
Ci sono data center in aree dove l’espansione è bloccata perché la rete elettrica locale non può fornire più potenza. Ad esempio, in paesi Bassi e Irlanda, già nel 2022-2023 le autorità hanno posto moratorie o limiti a nuovi data center perché la fornitura elettrica era satura. Ora l’AI acuisce il problema: un campus di data center focalizzato sull’AI può richiedere 100 Megawatt o più di potenza continua (equivalenti a una città di medie dimensioni).
Meta ha fatto scalpore con la notizia – a fine 2025 – di accordi per assicurarsi fino a 6,6 Gigawatt di energia nucleare entro il 2035, diventando uno dei maggiori acquirenti corporate di energia nucleare di sempre. Questo per alimentare i propri data center AI a lungo termine. In pratica Meta sta investendo in centrali elettriche tanto quanto in server: una mossa che dimostra come le strategie AI ora includono fattori prima riservati ai servizi pubblici o ai governi.
L’AI è entrata nella fase infrastrutturale
Un analista l’ha definita l’entrata dell’AI nella sua “fase infrastrutturale” dove la crescita è governata più da “sistemi energetici, tempi di autorizzazione, topologia delle reti e intensità di capitale” che non dal codice. In parole semplici, stiamo aggiungendo datacenter su datacenter, ma questi richiedono terreni, costruzioni, allacciamenti alla rete elettrica, magari linee dedicate – cose che richiedono anni e scelte strategiche, non possono essere improvvisate.
Sempre Rivista AI sintetizza così: “Chi controlla l’energia, controllerà l’AI”, avvertendo che credere di risolvere la questione semplicemente con data center più efficienti è ingenuo. Certo, l’efficienza energetica per calcolo migliora (ricordiamo +40% anno citato nel report Stanford), ma l’aumento della domanda supera quei guadagni. La potenza totale assorbita continua a salire. Quindi occorre pensare a fonti di energia stabili a lungo termine. Da qui l’interesse verso nucleare, rinnovabili con accumulo, microgrid dedicate ai data center.
I grandi attori del cloud (AWS, Google, Microsoft) investono massicciamente in impianti rinnovabili per compensare i consumi e garantirsi approvvigionamento stabile. Microsoft, ad esempio, oltre a contratti solari ed eolici, sta sperimentando generatori a idrogeno per backup nei data center e ha annunciato investimenti in tecnologie di fusione (accordo con Helion Energy per fornire energia da fusione dal 2028, se riuscirà). Sono tutti segnali che l’AI spinge innovazione anche nel settore energetico.
Infrastruttura come vantaggio competitivo e rischio strategico
Per i CEO e i board, la dimensione “chip & infrastruttura” dell’AI è passata dall’essere un dettaglio tecnico a un tema strategico centrale. Un esempio: i board di aziende hi-tech e telco oggi discutono di piani di investimento in data center AI come un tempo discutevano di acquisizioni. Queste decisioni impegnano capitali enormi ma possono determinare chi avrà la capacità di far girare i modelli più avanzati.
Nel 2024, con il boom di ChatGPT e simili, alcune aziende si sono trovate impreparate a sostenere il carico – ricordiamo gli episodi di servizi AI rallentati o inaccessibili nei momenti di punta per mancanza di GPU. Nessuna impresa vuole trovarsi in quella situazione.
Anche a livello di settore pubblico c’è consapevolezza del rischio: governi e regolatori capiscono che un deficit di infrastruttura AI può tradursi in un handicap economico. Il governo USA, ad esempio, ha integrato l’AI nelle previsioni di domanda elettrica a medio termine – tanto che l’amministrazione Biden nel 2023 ha emesso ordini esecutivi e iniziative per velocizzare i permessi di costruzione di data center e infrastrutture correlate. L’obiettivo è evitare colli di bottiglia burocratici nella creazione di capacità.
Emerge la figura del CTO Infrastructure Strategist
Sul fronte corporate, comincia a emergere la figura del CTO Infrastructure Strategist o simili, con il compito di allineare la strategia AI con i piani di espansione infrastrutturale. Ad esempio, decidere in quali regioni geografiche espandere i data center AI in base a costi energetici e disponibilità di rete. Già alcune aziende hanno spostato carichi AI in luoghi con energia più economica e disponibile (per es. data center in Scandinavia per sfruttare idroelettrico e clima freddo per il cooling).
Non va trascurato il tema raffreddamento: sistemi AI densamente popolati di chip generano calore enorme. Le architetture di data center stanno evolvendo con adozione di raffreddamento a liquido su larga scala, co-locazione vicino a fonti idriche per dissipare calore, e persino idee di posizionare data center in zone remote o sotterranee per facilitare la gestione termica. Anche questo è infrastruttura. Un’indiscrezione recente è che alcuni hyperscaler stiano valutando data center in prossimità dell’Artico o comunque in regioni molto fredde per risparmiare sul cooling; e c’è perfino chi ipotizza data center in orbita (alimentati a energia solare spaziale), anche se questi sono concetti per ora futuristici.
Innovazione hardware: oltre le GPU general purpose
Un altro sviluppo dell’era del collo di bottiglia hardware è il revival dei chip specializzati (ASIC) per l’AI. Nel 2020-22 molti ipotizzavano che le GPU avrebbero dominato per sempre il computing AI, data la loro flessibilità e l’ecosistema software maturo (CUDA, ecc.). Ma l’enorme scala odierna ha rimesso sul tavolo l’idea di chip custom fatti su misura per specifici modelli o aziende.
Google ad esempio spinge le sue TPU da anni, Amazon ha i chip Trainium e Inferentia, Meta sta sviluppando ASIC proprietari per inferenza. Come nota il reportage di Rivista AI, l’entusiasmo sugli ASIC va bilanciato: funzionano molto bene per workload specifici in ambienti controllati (per Google stessa, per Anthropic che progetta il proprio stack chiuso, ecc.), ma non sono una panacea universale.
Le GPU general purpose restano l’unica piattaforma davvero flessibile e ampia per l’AI a livello globale. Dunque non è attesa a breve una fuga generale dalle GPU, ma piuttosto un diversificarsi delle opzioni. Ad esempio, chip ottici per AI analogica, chip neuromorfici per particolari applicazioni, e ibridi CPU-GPU in pacchetti unici (come gli ultimi Grace Hopper di Nvidia che combinano CPU ARM e GPU con ampia banda).
Questa diversificazione ha un impatto: richiede competenze hardware-software più profonde da parte delle aziende che intendono sfruttarla. Se una società punta su un proprio ASIC, deve sviluppare internamente o in partnership un’intera filiera (dalla progettazione all’ottimizzazione del software).
Non a caso, molte partnership sono nate: ad esempio Nvidia collabora con realtà industriali per creare versioni di “AI factory” tarate su settori (es. collaborazione con produttori manifatturieri per soluzioni in loco), o Deloitte ha lanciato un servizio “AI Factory-as-a-service” insieme a Oracle e Nvidia.
Ciò indica che la progettazione dell’infrastruttura AI è diventata parte integrante dell’offerta di consulenza e soluzioni: non basta implementare il modello, devi consigliare il cliente su quale hardware, come orchestrarlo, come alimentarlo.
Verso un’AI sostenibile (e “distribuita”?)
L’attenzione al collo di bottiglia infrastrutturale solleva anche interrogativi sulla sostenibilità. Se ogni avanzamento dell’AI richiede consumi energetici sempre maggiori, c’è chi teme l’impatto ambientale e la non sostenibilità economica sul lungo periodo. Nel 2026 inizia a emergere un filone di ricerca e sviluppo su AI più efficienti per design: modelli compressi, algoritmi a precisione ridotta (int8, int4), tecniche di sparsity per ridurre i calcoli inutili, knowledge distillation per creare modelli piccoli che imitano i grandi, ecc.
Abbiamo già beneficiato di alcuni risultati: come detto l’inferenza di GPT-3.5 level oggi è 280 volte più economica rispetto a due anni prima. Questo trend di efficienza deve continuare se vogliamo che l’AI sia gestibile a livello planetario.
Una visione interessante è quella di spostare parte del carico “in periferia”: AI all’edge, cioè sui dispositivi locali, per ridurre la necessità di mandare tutto in cloud.
Nel 2025-26 assistiamo a progressi nei chip AI per smartphone, veicoli e dispositivi IoT. L’idea è che non tutto debba accadere nei mega data center: alcune elaborazioni, grazie a modelli compressi, possono avvenire localmente, distribuendo così il carico. Questo aiuta anche a ridurre latenze e risolvere questioni di privacy (dati che restano sul dispositivo).
Certo, i compiti più pesanti rimangono centralizzati, ma potremmo arrivare a una gerarchia: piccoli modelli edge filtrano o pre-elaborano, grandi modelli cloud rifiniscono. Ciò ottimizza l’uso di risorse globali.
Conclusione
In conclusione, il motto per il 2026 è: “It’s not the model, it’s the machine”. L’attenzione dei leader si sposta su come assicurarsi le macchine migliori, la corrente necessaria, e l’integrazione fluida di tutto ciò. Questo non significa che la ricerca algoritmica sia finita – tutt’altro, continuiamo a vedere innovazione in architetture di rete, come i reasoning LLM citati in altre sezioni – ma significa riconoscere che senza l’hardware e l’infrastruttura adeguati quelle innovazioni restano sulla carta.
La competizione in AI quindi si combatte su due fronti: software (modelli, dati, applicazioni) e fisico (chip, data center, energia). Chi saprà orchestrare entrambi otterrà il vero vantaggio competitivo nell’era dell’AI su larga scala.




