ANALISI

Nuove reti e modelli per supportare la crescita sostenibile dell’AI



Indirizzo copiato

Per far sì che l’infrastruttura di rete di un’azienda che vuole integrare carichi di lavoro dell’AI possa supportare questa evoluzione occorre flessibilità: deve essere possibile sfruttare le architetture di rete esistenti senza rimanere vincolati a una decisione a priori che non conceda spazio evolutivo

Pubblicato il 28 nov 2023

Luca De Fazio

Enterprise Networking Sales Specialist di Cisco Italia



Reti neurali artificiali

La pervasività che sta assumendo l’intelligenza artificiale tra le tecnologie di nuova generazione oggi disponibili sta portando in primo piano temi etici e pratici connessi al suo utilizzo, tra cui emerge oggi, con sempre maggiore rilevanza, il tema del consumo energetico.

Quanto consuma ChatGPT

L’energia “incorporata” da un large language model come ChatGPT, ad esempio, è stata messa in luce da uno studio nel quale si è stimato che per addestrare GPT -3 sono stati consumati 1.287 Megawattora di elettricità, generando 552 tonnellate di anidride carbonica equivalente. Il dato può apparire abbastanza “contenuto”, ma non considera il suo utilizzo una volta messo in produzione il modello, e riguarda un modello con minori capacità di ciò che oggi gli utenti trovano sul mercato.

L’ uso di questi modelli – in un quadro in cui il numero di query da elaborare quotidianamente cresce in modo esponenziale come sta avvenendo con l’integrazione in strumenti disponibili a tutti come i motori di ricerca di Microsoft o Google – rende ancora più energivori i carichi di lavoro, che i data center e le reti devono supportare con infrastrutture hardware che a loro volta cambiano per poter accogliere un uso sempre più intensivo dell’AI.

È quindi una precisa responsabilità da parte dei costruttori di hardware farsi carico di una evoluzione sostenibile delle infrastrutture e degli hardware che essi portano sul mercato anche al fine di supportare l’AI, i cui carichi di lavoro e le cui esigenze in termini di connettività sono diversi da tutto quello che è stato sviluppato finora.

Data center “sub” Microsoft

Data center e sistemi di AI, quali differenze

I software che conosciamo sono eseguiti nei data center locali o nel cloud su infrastrutture composte da due elementi principali: i server, che sono basati su unità computazionali del tipo CPU (Central Processing Unit) e da un canale di comunicazione formato sostanzialmente da switch (Top-Of-Rack e Spine) interconnessi tra loro e router chiamati data center interconnect (DCI) che costituiscono la dorsale del canale di comunicazione e permettono di esportare all’esterno i risultati dell’elaborazione dei server. La comunicazione si basa sul protocollo standard Ethernet e in questi data center ogni elaborazione, o ogni parte di essa, può essere eseguita interamente da un singolo server, sul suo processore.

Le applicazioni basate su AI/ML e i data center costruiti per eseguirle invece sono di natura profondamente diversa. Innanzitutto, esse sono eseguite da un tipo diverso di unità computazionale – le GPU (Graphical Processing Unit, schede grafiche). L’elaborazione dell’enorme mole di dati tipica delle applicazioni AI/ML eccede tipicamente le risorse disponibili sulla singola GPU; quindi, i carichi di lavoro vengono suddivisi in più sotto-lavori eseguiti su molteplici GPU; l’applicazione deve attendere il completamento di ogni sotto-lavoro per poter avviare una nuova lavorazione e questo rende cruciale la rete di interconnessione tra i vari server su cui il lavoro è suddiviso.

È un calcolo collettivo che avviene in modo “sincrono” ed è per questo che, come abbiamo evidenziato con le nostre analisi, la capacità di trasmissione dei dati della rete diventa, nelle applicazioni AI/ML, il vero collo di bottiglia – a differenza delle applicazioni software non AI, dove quest’ultimo è rappresentato dalla capacità di calcolo della CPU.

La GPU Nvidia H100 NVL

Per i carichi di lavoro dell’AI serve flessibilità

La chiave per fare sì che l’infrastruttura di rete di un’azienda che intenda integrare in modo massiccio carichi di lavoro dell’AI possa supportare questa evoluzione sta nella flessibilità: deve essere possibile sfruttare le architetture di rete esistenti (che possono essere di quattro tipi principali oggi: Infiniband, Ethernet, telemetry assisted Ethernet e fully scheduled fabrics) senza rimanere vincolati a una decisione a priori, senza spazio evolutivo. E per quanto detto in precedenza riguardo ai consumi, deve essere possibile farlo nativamente senza incorrere in un aggravio eccessivo dei consumi energetici, che già sono fortemente messi sotto stress.

Il modello che abbiamo ha adottato e si trova allineato con queste esigenze evolutive è quello di Silicon One: un processore che può realizzare molteplici architetture supportandole sullo stesso hardware e che contribuisce, con la semplificazione e con un importante abbattimento dei consumi, al contenimento dei costi di esercizio oltre che delle emissioni correlate all’uso dell’energia in questi nuovi tipi di data center.

Oggi l’ultima generazione di Silicon One consente di ridurre di fino a 48 volte le dimensioni delle macchine router equipaggiate con il processore: a parità di traffico instradabile è fino a 35 volte più veloce in termini di banda, e fino a 26 volte meno energivora. Anche in termini di emissioni indirette si è lavorato sull’ottimizzazione del confezionamento a fini di trasporto, migliorando quindi la prestazione di sostenibilità anche nei processi logistici correlati.

Conclusioni

Lo sforzo di ricerca e sviluppo che ha portato alla creazione di questo nuovo processore è stato fatto per rompere il paradigma tradizionale che vedeva irrimediabilmente correlato l’aumento delle prestazioni e l’aumento dei consumi, nel quadro di una innovazione tecnologica creata per supportare l’evoluzione infrastrutturale richiesta dall’AI. Infrastruttura e applicazioni nel mondo dell’AI sono ancora più interdipendenti: un po’ come in una gara automobilistica, solo accoppiare una buona auto e un buon pilota può portare alla vittoria.

Note – sitografia
Chopra, R. (2020, August 19). Making an Eco-Friendly Network with Cisco Silicon One. Retrieved from https://blogs.cisco.com/sp/making-an-eco-friendly-network-with-cisco-silicon-one 

Chopra, R. (2023, May 26). Building AI/ML Networks with Cisco Silicon One. Retrieved from https://blogs.cisco.com/sp/building-ai-ml-networks-with-cisco-silicon-one 

Cisco. (2023, June 8). How is AI/ML Different from Traditional Data Center Traffic? Retrieved from https://www.cisco.com/c/en/us/solutions/collateral/silicon-one/evolve-ai-ml-network-silicon-one.html#HowisAIMLDifferentfromTraditionalDataCenterTraffic 

Kadosh, A. (2020, November 16). Five Principles at the Heart of Cisco Silicon One. Retrieved from https://blogs.cisco.com/sp/five-principles-at-the-heart-of-cisco-silicon-one 

Loten, A. (2023, July 13). The Wall Street Journal. Retrieved from https://www.wsj.com/articles/rising-data-center-costs-linked-to-ai-demands-fc6adc0e 

Marr, B. (2023, March 22). Green Intelligence: Why Data And AI Must Become More Sustainable. Retrieved from Forbes: https://www.forbes.com/sites/bernardmarr/2023/03/22/green-intelligence-why-data-and-ai-must-become-more-sustainable/?sh=654dce4d7658 

Saenko, K. (2023, May). Retrieved from Scientific American: https://www.scientificamerican.com/article/a-computer-scientist-breaks-down-generative-ais-hefty-carbon-footprint/ 

Articoli correlati

Articolo 1 di 4