scenari

Come il mercato dei chip AI si sta evolvendo: dall’addestramento all’inferenza

La tecnologia di intelligenza artificiale sta trasformandosi rapidamente, spostando l’attenzione verso i chip che alimentano i modelli AI dopo che sono stati addestrati. Questo cambiamento sta creando nuove opportunità per Nvidia, che detiene la leadership di mercato, ma anche per i suoi concorrenti

Pubblicato il 27 feb 2024

Pierluigi Sandonnini

Con la transizione dell’industria dell’intelligenza artificiale, le esigenze delle aziende si stanno evolvendo offrendo grandi opportunità a produttori di chip come Nvidia e ai suoi concorrenti. La tecnologia alla base dell’AI generativa come ChatGPT ha avuto un’esplosione, alimentando una domanda di chip in grado di gestire la potenza di elaborazione necessaria per questi programmi.

Indice degli argomenti:

In futuro serviranno più chip per far funzionare i modelli dopo l’addestramento

La battaglia per i chip AI che Nvidia ha dominato sta già virando verso un nuovo fronte, che sarà molto più ampio ma anche più competitivo. Nvidia si è costruita un impero da 2 trilioni di dollari fornendo i chip essenziali per l’incredibilmente complesso lavoro di addestramento dei modelli di intelligenza artificiale. Con l’evoluzione rapida del settore, la grande opportunità sarà vendere chip che fanno funzionare quei modelli dopo che sono stati addestrati, producendo testi e immagini per la popolazione in rapida crescita di aziende e persone che utilizzano effettivamente strumenti AI generativi.

Attualmente, questo cambiamento sta contribuendo alle vendite record di Nvidia. La Chief Financial Officer, Colette Kress, ha dichiarato la scorsa settimana che oltre il 40% del business dei data center di Nvidia nell’ultimo anno – quando il fatturato ha superato i 47 miliardi di dollari – era per il dispiegamento di sistemi AI e non per l’addestramento. Questa percentuale è stata la prima indicazione significativa che il cambiamento è in corso. I commenti di Kress hanno dissipato alcune preoccupazioni che il passaggio verso chip per il dispiegamento di sistemi AI – quelli che fanno ciò che viene chiamato lavoro di “inferenza” – minaccia la posizione di Nvidia perché quel lavoro può essere fatto con chip meno potenti e meno costosi rispetto a quelli che hanno reso Nvidia leader del boom dell’AI.

“C’è una percezione che la quota di Nvidia sarà inferiore nell’inferenza rispetto all’addestramento”, afferma Ben Reitzes, analista della Melius Research. “Questa rivelazione aiuta a far luce sulla sua capacità di beneficiare della prossima esplosione dell’inferenza”.

Maggiori possibilità per i concorrenti di Nvidia con la crescita della domanda di chip per l’inferenza

Molti rivali di Nvidia credono di avere maggiori possibilità nel mercato dell’AI man mano che i chip per l’inferenza diventano più importanti. Intel, che produce unità centrali di elaborazione destinate ai data center, ritiene che i suoi chip saranno sempre più interessanti man mano che i clienti si concentrano sulla riduzione dei costi operativi dei modelli AI. I tipi di chip in cui Intel è specializzata sono già ampiamente utilizzati nell’inferenza, e non è così critico avere i chip H100 AI all’avanguardia e più costosi di Nvidia quando si svolge quel compito.

“L’economia dell’inferenza consiste nel fatto che non andrò a creare ambienti H100 da 40mila dollari che consumano troppa energia e richiedono nuovi modelli di gestione e sicurezza e nuova infrastruttura IT”, ha detto in un’intervista a dicembre il CEO di Intel, Pat Gelsinger. “Se posso far funzionare quei modelli su standard [chip Intel], è una scelta ovvia”.

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT (TRT) 7.2, precision =™ INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 con densità.

Vivek Arya, analista di Bank of America, ritiene che il passaggio verso l’inferenza è forse la notizia più significativa emersa dal rapporto trimestrale sui guadagni di Nvidia, che ha superato le previsioni di Wall Street e ha portato il suo titolo a salire dell’8,5% per la settimana, spingendo l’azienda a una valutazione approssimativa di 2 trilioni di dollari. Arya sostiene che l’inferenza aumenterà man mano che l’attenzione si sposta verso la generazione di ricavi dai modelli AI dopo un’ondata di investimenti per addestrarli. Questo potrebbe essere più competitivo rispetto all’addestramento dell’AI, dove Nvidia domina attualmente. Il tasso al quale cresce l’inferenza potrebbe essere più veloce del previsto. All’inizio dell’anno, gli analisti della UBS stimavano che il 90% della domanda di chip derivasse dall’addestramento e che l’inferenza avrebbe guidato solo il 20% del mercato entro il prossimo anno.

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

Il fatto che Nvidia derivi circa il 40% dei suoi ricavi dai data center dall’inferenza era “un numero più grande di quanto ci aspettassimo”, ritengono gli analisti. Infatti, i risultati finanziari di Nvidia suggeriscono che la sua quota di mercato nei chip AI di oltre l’80% non è ancora seriamente messa in discussione. Si prevede che i chip di Nvidia utilizzati per l’addestramento dei sistemi AI rimarranno molto richiesti per il futuro prevedibile.

Intel, Advanced Micro Devices (AMD) e le startup potrebbero guadagnare quote di mercato con la transizione all’inferenza

Nell’addestramento dei sistemi AI, le aziende fanno passare enormi quantità di dati attraverso i loro modelli per insegnarli a prevedere il linguaggio in modo da consentire un’espressione simile a quella umana. Il lavoro richiede una capacità di calcolo enorme che si adatta bene alle unità di elaborazione grafica, o GPU, di Nvidia. Il lavoro di inferenza avviene quando a quei modelli viene chiesto di elaborare nuovi pezzi d’informazione e rispondere, un compito meno pesante. Oltre ai concorrenti consolidati come Intel e Advanced Micro Devices, un certo numero di startup specializzate in chip AI potrebbero guadagnare quote di mercato man mano che l’inferenza diventa centrale.

Anche Groq, una startup fondata dall’ex ingegnere dei chip AI di Google, Jonathan Ross, ha visto un’ondata di interesse negli ultimi mesi dopo una demo sulla home page dell’azienda che mostrava quanto velocemente i suoi chip di inferenza potevano generare risposte da un grande modello linguistico. L’azienda è pronta a distribuire 42mila chip quest’anno e un milione l’anno prossimo, ma sta esplorando l’aumento a 220mila quest’anno e 1,5 milioni l’anno prossimo, ha detto Ross. Un fattore che sta guidando il cambiamento, afferma, è che alcuni dei sistemi AI più avanzati vengono ottimizzati per produrre risposte migliori senza riaddestrarli, spingendo più lavoro computazionale nell’inferenza. E i chip specialistici di Groq, ha detto, sono significativamente più veloci ed economici da eseguire rispetto a quelli di Nvidia o altre offerte delle aziende di chip. “Per l’inferenza, quello che puoi distribuire dipende dal costo”, ha detto. “Ci sono un sacco di modelli che sarebbero stati addestrati da Google che funzionavano ma circa l’80% di essi non veniva distribuito perché erano troppo costosi da mettere in produzione.”

Meta, Microsoft, Google e Amazon produrranno chip in proprio

Grandi aziende tecnologiche – tra cui Meta, Microsoft, Google e Amazon – stanno lavorando per sviluppare chip d’inferenza internamente, riconoscendo il cambiamento imminente e i benefici derivanti dalla possibilità di fare inferenza a costi più bassi.

Amazon, ad esempio, utilizza chip d’inferenza dal 2018 e l’inferenza rappresenta il 40% dei costi di calcolo per il suo assistente intelligente Alexa, ha riferito l’anno scorso Swami Sivasubramanian, vicepresidente dei dati e dell’apprendimento automatico del ramo cloud computing dell’azienda.

Nvidia, dal canto suo, cerca di rimanere in testa, mentre procede la transizione verso l’inferenza. Un nuovo chip ha ottenuto ottimi risultati nel settore lo scorso anno in un benchmark chiave dell’inferenza AI, estendendo la dominazione pluriennale dell’azienda nella competizione.

A dicembre, dopo che AMD ha presentato nuovi chip AI – a detta dell’azienda migliori di quelli di Nvidia nell’inferenza – Nvidia ha risposto contestando queste affermazioni: AMD non ha utilizzato software ottimizzato nel fare le sue affermazioni sulle prestazioni, ha detto Nvidia; se lo avesse fatto, i chip di Nvidia sarebbero risultati due volte più veloci.

@RIPRODUZIONE RISERVATA