DeepSeek ha portato scompiglio nel panorama dell’intelligenza artificiale mondiale, con il suo “piccolo ed economico è bello”. Fra le notizie associate che si sono diffuse, più o meno dotate di fondatezza, vi è che l’intelligenza artificiale potrebbe non aver bisogno di ingurgitare le enormi quantità di energia che utilizza attualmente. Ma i dati di uno studio pubblicato da MIT Technology Review dimostrano che questo non è vero.
Questi primi dati, basati sulle prestazioni di uno dei modelli più piccoli di DeepSeek su un numero limitato di richieste, suggeriscono che potrebbe essere addirittura più dispendioso in termini di energia quando genera le risposte rispetto al modello di dimensioni equivalenti di Meta.
Il problema potrebbe essere che l’energia che risparmia nell’addestramento è compensata dalle tecniche più intensive per rispondere alle domande e dalle lunghe risposte che produce.
Se a ciò si aggiunge che altre aziende tecnologiche, ispirate dall’approccio di DeepSeek, potrebbero iniziare a costruire modelli di ragionamento simili a basso costo, le prospettive per il consumo energetico appaiono già molto meno rosee.
Energia spesa per l’addestramento e per l’inferenza
Il ciclo di vita di qualsiasi modello di intelligenza artificiale prevede due fasi: l’addestramento e l’inferenza. L’addestramento è il processo, spesso lungo mesi, in cui il modello impara dai dati. Il modello è quindi pronto per l’inferenza, che avviene ogni volta che qualcuno gli chiede qualcosa. Entrambi i processi si svolgono solitamente nei centri dati, dove è necessaria molta energia per far funzionare i chip e raffreddare i server.
Per quanto riguarda l’addestramento del modello R1, il team di DeepSeek ha migliorato la cosiddetta tecnica mixture of experts, in cui solo una parte dei miliardi di parametri di un modello – le “manopole” che un modello utilizza per ottenere risposte migliori – viene attivata in un determinato momento durante l’addestramento. In particolare, hanno migliorato l’apprendimento per rinforzo, in cui i risultati di un modello vengono valutati e quindi utilizzati per migliorarlo. Spesso questo compito viene svolto da annotatori umani, ma il team di DeepSeek è riuscito ad automatizzarlo.
L’introduzione di un metodo per rendere più efficiente l’addestramento potrebbe far pensare che le aziende di AI utilizzeranno meno energia per portare i loro modelli a un certo standard. In realtà, però, non è così che funziona.
“Poiché il valore di un sistema più intelligente è così alto”, ha scritto Dario Amodei, cofondatore di Anthropic, sul suo blog, ‘le aziende spendono di più, non di meno, per addestrare i modelli’. Se le aziende ottengono di più per i loro soldi, troveranno conveniente spendere di più e quindi utilizzare più energia. “I guadagni in termini di efficienza dei costi finiscono per essere interamente dedicati alla formazione di modelli più intelligenti, limitati solo dalle risorse finanziarie dell’azienda”, ha scritto. È un esempio del cosiddetto paradosso di Jevons.
Ma questo è vero per quanto riguarda l’addestramento da quando è iniziata la corsa all’intelligenza artificiale. L’energia richiesta per l’inferenza è il punto in cui le cose si fanno più interessanti.
DeepSeek è stato progettato come modello di ragionamento, il che significa che è stato pensato per ottenere buoni risultati in compiti come la logica, la ricerca di schemi, la matematica e altri compiti con cui i tipici modelli di AI generativa hanno difficoltà. I modelli di ragionamento fanno questo utilizzando una cosa chiamata chain of tought, “catena di pensiero”. Ciò consente al modello di intelligenza artificiale di suddividere il suo compito in parti e di lavorarle in un ordine logico prima di giungere alla conclusione.
Lo si può vedere con DeepSeek. Se chiediamo se è giusto mentire per proteggere i sentimenti di qualcuno, il modello affronta prima la questione con l’utilitarismo, valutando il bene immediato rispetto al potenziale danno futuro. Poi considera l’etica kantiana, che propone di agire secondo massime che potrebbero essere leggi universali. Prende in considerazione queste e altre sfumature prima di condividere le sue conclusioni.
I modelli a catena di pensiero tendono a ottenere risultati migliori in alcuni benchmark, come l’MMLU, che testa la conoscenza e la risoluzione di problemi in 57 materie. Ma, come sta diventando chiaro con DeepSeek, richiedono anche molta più energia per arrivare alle loro risposte. Abbiamo alcuni primi indizi su quanto sia maggiore.
I test di Scott Chamberlin
Scott Chamberlin ha trascorso anni in Microsoft e successivamente in Intel, costruendo strumenti per aiutare a rivelare i costi ambientali di alcune attività digitali. Chamberlin ha effettuato alcuni test iniziali per vedere quanta energia consuma una GPU quando DeepSeek arriva alla sua risposta. L’esperimento è accompagnato da una serie di avvertenze: ha testato solo una versione di medie dimensioni di DeepSeek R-1, utilizzando solo un numero ridotto di richieste. È anche difficile fare confronti con altri modelli di ragionamento.
Il post di Chamberlin su LinkedIn
“Le affermazioni sulla riduzione dei requisiti di calcolo e di energia per i modelli di tipo Deep Seek potrebbero essere esagerate.
La scorsa settimana abbiamo iniziato a valutare Deep Seek (come chiunque altro al mondo) per valutarne l’impatto energetico e le capacità di ottimizzazione per la nostra piattaforma. Di seguito sono riportati i risultati della nostra suite di test di inferenza nel mondo reale.
Ho scelto di confrontare Llama 3.3 70b con Deep Seek R1 70b, in quanto sono in grado di stressare efficacemente un singolo H100 (Nvidia, ndr) con ciascuno di essi senza dover ricorrere a una configurazione estesa. C’è un elemento di confronto tra mele e arance; mentre Deep Seek R1 70b è distillato da Llama 3.3, è progettato per fornire una catena di pensiero e generare una finestra di output molto più lunga, mentre Llama 3.3 è sintonizzato per la chat e alcuni ragionamenti. Sono interessato soprattutto al consumo di energia di ciascuno e normalizzerò i risultati (entrambi hanno lo stesso numero di parametri, il che aiuta a controllare questo aspetto).
Il risultato netto è che i due modelli hanno all’incirca la stessa efficienza energetica (tokens/Ws) con prestazioni leggermente inferiori (4,8% tokens/s). Tuttavia, Deep Seek r1 70b ha un tempo di esecuzione circa doppio (a causa della generazione di un numero così elevato di token in uscita), con un consumo energetico totale superiore dell’87% rispetto a Llama 3.3 sullo stesso set di richieste. Anche se l’output dei token fosse limitato, l’efficienza energetica per token sarebbe simile, il che significa che l’impatto energetico totale rispetto ai modelli più comunemente utilizzati è probabilmente lo stesso (output limitato) o peggiore (output più lunghi).
Sebbene l’opinione comune sia che l’addestramento di Deep Seek abbia probabilmente utilizzato una quantità di energia significativamente inferiore rispetto a modelli analoghi, riteniamo che l‘inferenza costituirà la maggior parte dell’energia e dell’utilizzo computazionale in futuro. I modelli migliori saranno più utili e, anche se miglioreremo la loro efficienza energetica, probabilmente ci troveremo di fronte al paradosso di Jevon, in cui saranno ancora più utilizzati.
Guardando i dati, posso solo prevedere che queste innovazioni ci porteranno a mantenere le stesse tendenze di crescita dei consumi energetici di prima del rilascio di DeepSeek V3/R1″.

I test dell’Università del Michigan
DeepSeek è “davvero il primo modello di ragionamento abbastanza popolare a cui tutti noi abbiamo accesso”, dice Chamberlin. Il modello o1 di OpenAI è il suo concorrente più vicino, ma l’azienda non lo rende disponibile per i test. L’autore lo ha invece testato contro un modello di Meta con lo stesso numero di parametri: 70 miliardi.
La domanda che chiedeva se fosse giusto mentire ha generato una risposta di 1.000 parole da parte del modello DeepSeek, che ha richiesto 17.800 joule per essere generata, circa quanto serve per trasmettere un video di 10 minuti su YouTube. Si tratta di circa il 41% in più di energia rispetto a quella utilizzata dal modello di Meta per rispondere al quesito. Complessivamente, quando è stato testato su 40 richieste, DeepSeek è risultato avere un’efficienza energetica simile a quella del modello Meta, ma DeepSeek tendeva a generare risposte molto più lunghe e quindi è risultato utilizzare l’87% di energia in più.
Come si colloca questo dato rispetto ai modelli che utilizzano la vecchia AI generativa e non il ragionamento a catena di pensiero? I test condotti in ottobre da un team dell’Università del Michigan hanno rilevato che la versione da 70 miliardi di parametri di Llama 3.1 di Meta consumava in media solo 512 joule per risposta.
Processore A100-SXM4-40GB

Processore H100 80GB HBM3

Ancora una volta: le incertezze abbondano. Si tratta di modelli diversi, per scopi diversi, e non è stato fatto uno studio scientificamente valido sulla quantità di energia utilizzata da DeepSeek rispetto ai concorrenti. Ma è chiaro, basandosi solo sull’architettura dei modelli, che i modelli a catena di pensiero utilizzano molta più energia per arrivare a risposte più affidabili.
Sasha Luccioni, ricercatrice di intelligenza artificiale e responsabile del clima presso Hugging Face, teme che l’entusiasmo per DeepSeek possa portare a una corsa all’inserimento di questo approccio in tutto, anche dove non è necessario.
“Se iniziassimo ad adottare questo paradigma su larga scala, l’utilizzo di energia per l’inferenza salirebbe alle stelle”, afferma. “Se tutti i modelli che vengono rilasciati sono più intensivi dal punto di vista del calcolo e diventano catene di pensiero, allora si annulla completamente qualsiasi guadagno in termini di efficienza”.
Prima del lancio di ChatGPT nel 2022, il nome del gioco nell’AI era estrattivo, ovvero trovare informazioni in un sacco di testo o categorizzare immagini. Ma nel 2022 l’attenzione si è spostata dall’AI estrattiva all’AI generativa, che si basa sull’elaborazione di previsioni sempre migliori. Questo richiede più energia.
“Questo è il primo cambiamento di paradigma”, afferma Luccioni. Secondo la sua ricerca, questo cambiamento ha portato a utilizzare ordini di grandezza di energia in più per svolgere compiti simili.

Se il fervore attorno a DeepSeek continuerà, secondo Luccioni, le aziende potrebbero essere spinte a inserire i suoi modelli in stile catena di pensiero in ogni cosa, così come l’AI generativa è stata aggiunta a tutto, dalla ricerca su Google alle app di messaggistica.
Sembra che ci stiamo dirigendo verso un maggior numero di modelli di ragionamento a catena di pensiero: OpenAI ha annunciato il 31 gennaio 2025 che avrebbe ampliato l’accesso al proprio modello di ragionamento, o3.
Ma non sapremo di più sui costi energetici finché DeepSeek e altri modelli simili non saranno studiati meglio.