C’è un nuovo astro nel firmamento dell’intelligenza artificiale mondiale e su di esso non sventola la bandiera a stelle e strisce: è DeepSeek, un laboratorio di AI cinese che sviluppa modelli linguistici open-source avanzati.
Fondato nel 2023 come parte del fondo quantitativo High-Flyer, DeepSeek ha rapidamente guadagnato attenzione globale con i suoi modelli innovativi; in particolare DeepSeek-R1, lanciato nel gennaio 2025, per cui ora tutta la comunità dell’intelligenza artificiale è in fermento.
Perché DeepSeek sostiene che R1 eguaglia o addirittura supera OpenAI-o1 su diversi benchmark chiave, ma opera a una frazione del costo. La Cina ha dimostrato così di aver saputo sfruttare a suo vantaggio le restrizioni sull’importazione di chip imposte dagli Usa.

DeepSeek-R1: le caratteristiche principali
In realtà, DeepSeek ha presentato due nuovi modelli di ragionamento di prima generazione: DeepSeek-R1-Zero e DeepSeek-R1.
DeepSeek-R1-Zero è un modello addestrato tramite l’apprendimento per rinforzo (RL) su larga scala senza la messa a punto supervisionata (SFT) come fase preliminare che ha dimostrato prestazioni notevoli nel ragionamento. Con l’RL, DeepSeek-R1-Zero è emerso naturalmente con numerosi comportamenti di ragionamento potenti e interessanti. Tuttavia, DeepSeek-R1-Zero incontra problemi come la ripetizione infinita, la scarsa leggibilità e la commistione linguistica.
Per risolvere questi problemi e migliorare ulteriormente le prestazioni del ragionamento, DeepSeek ha introdotto DeepSeek-R1, che incorpora dati a freddo prima di RL. DeepSeek-R1 raggiunge prestazioni paragonabili a quelle di OpenAI-o1 nei compiti di matematica, codice e ragionamento.
Per supportare la comunità di ricerca, DeepSeek ha reso open-source DeepSeek-R1-Zero, DeepSeek-R1 e sei modelli densi distillati da DeepSeek-R1 basati su Llama e Qwen.
DeepSeek-R1-Distill-Qwen-32B ha superato OpenAI-o1-mini in diversi benchmark, raggiungendo nuovi risultati allo stato dell’arte per i modelli densi.

Come utilizzare DeepSeek
Per utilizzare DeepSeek in modo pratico, è necessario seguire alcuni passaggi che permettono di eseguire il modello di intelligenza artificiale localmente o tramite un’interfaccia web, in base alla configurazione scelta.
Quando si utilizza DeepSeek, è possibile scegliere tra due versioni principali del modello: V3 e R1.
- R1 è la versione più recente, con miglioramenti nelle prestazioni, funzionalità avanzate e ottimizzazione del modello.
- V3 è una versione precedente, che potrebbe essere più leggera o adatta per dispositivi con risorse limitate, ma con capacità inferiore rispetto alla versione R1.
La versione da scegliere dipende dalle esigenze specifiche, dalla potenza di calcolo disponibile e dalle funzionalità desiderate.
1. Creare un account e accesso
- Se si sceglie di utilizzare DeepSeek tramite un’interfaccia web, è necessario registrarsi creando un account sulla piattaforma. L’accesso può avvenire tramite email o servizi terzi come Google o Apple, se disponibili.
2. Scaricare e configurare DeepSeek localmente
- Ambiente di sviluppo: Installare Python e un ambiente virtuale (ad esempio, con venv) sul proprio computer.
- Clonazione del repository: È possibile scaricare il codice sorgente di DeepSeek dal repository ufficiale su GitHub. Clonando il repository, si avrà accesso ai file necessari per eseguire il modello localmente. Utilizzare il comando:
- git clone https://github.com/deepseek-ai/DeepSeek-V3.git
- Installazione dipendenze: Navigare nella cartella del progetto e installare le dipendenze necessarie con il comando:
- pip install -r requirements.txt
3. Eseguire DeepSeek
- Una volta configurato l’ambiente e scaricato il modello, è possibile eseguire DeepSeek localmente. Utilizzare il comando:
- python run_model.py
- Se tutto è configurato correttamente, il modello dovrebbe avviarsi, consentendo di interagire con esso.
4. Interagire con DeepSeek
- È possibile fornire input testuali o audio, caricare file, e ricevere risposte o analisi dal modello. I comandi o i prompt inseriti dipendono dall’uso specifico che si intende fare di DeepSeek (ad esempio, chat, analisi di contenuti, ecc.).
5. Gestire la privacy
- Se si esegue DeepSeek localmente, i dati non vengono inviati a server esterni, riducendo i rischi per la privacy. È possibile gestire la cronologia delle conversazioni e altre informazioni tramite le impostazioni dell’app.
6. Opzioni avanzate
- Se lo si desidera, è possibile personalizzare l’esperienza configurando vari parametri, come la lingua, la velocità di risposta, o integrando altre funzionalità avanzate in base alle necessità.
Post-training: apprendimento per rinforzo su larga scala del modello di base
DeepSeek applica direttamente l’apprendimento per rinforzo (RL) al modello di base senza affidarsi alla messa a punto supervisionata (SFT) come fase preliminare. Questo approccio consente al modello di esplorare la catena del pensiero (CoT) per risolvere problemi complessi, dando vita a DeepSeek-R1-Zero. DeepSeek-R1-Zero dimostra capacità quali l’autoverifica, la riflessione e la generazione di lunghe CoT, segnando una tappa significativa per la comunità di ricerca.
In particolare, è la prima ricerca aperta a convalidare che le capacità di ragionamento dei LLM possono essere incentivate solo attraverso la RL, senza bisogno di SFT. Questa scoperta apre la strada a futuri progressi in quest’area.
La pipeline per sviluppare DeepSeek-R1
La pipeline incorpora due fasi di RL finalizzate alla scoperta di modelli di ragionamento migliori e all’allineamento con le preferenze umane, nonché due fasi di SFT che fungono da seme per le capacità di ragionamento e non ragionamento del modello. DeepSeek ritene che questa pipeline sia utile al settore per la creazione di modelli migliori.
In che modo l’architettura MoE migliora le prestazioni di R-1
DeepSeek-R1 utilizza un’architettura chiamata Mixture of Experts (MoE), che attiva solo una parte dei suoi 671 miliardi di parametri durante l’elaborazione. Questo approccio consente di ridurre significativamente i costi computazionali, attivando solo 37 miliardi di parametri per ogni passaggio in avanti.L’architettura Mixture-of-Experts (MoE) rappresenta un’innovazione chiave che migliora significativamente le prestazioni di DeepSeek-R1.
Principio di funzionamento
- Seleziona dinamicamente gli “esperti” più adatti per ogni specifica richiesta
- Simula un team di specialisti che intervengono in modo mirato
Ottimizzazione computazionale
- Riduzione significativa dei costi di elaborazione
- Miglioramento dell’efficienza energetica
- Accelerazione dei tempi di risposta
Performance tecniche
- Incremento dell’accuratezza fino al 90,2% in matematica
- Superamento dei modelli concorrenti come GPT-4
- Capacità di gestire compiti complessi con maggiore precisione
Modalità di selezione
- Attivazione selettiva degli esperti in base al contesto
- Utilizzo di meccanismi di apprendimento per rinforzo
- Adattamento dinamico alle diverse tipologie di input
L’architettura MoE consente a DeepSeek-R1 di operare con un’efficienza straordinaria, riducendo i costi computazionali e mantenendo prestazioni di alto livello.
Il modello è progettato per eccellere in compiti complessi come il ragionamento matematico e la generazione di codice. Utilizza tecniche di apprendimento per rinforzo (RL) per sviluppare capacità di ragionamento autonomo e riflessione, rendendolo competitivo con modelli come OpenAI-o1.
Il modello impiega un approccio chain of thought simile a quello utilizzato da OpenAI-o1, che gli consente di risolvere i problemi elaborando le richieste passo dopo passo.
Come funziona il chain of thought
Principio fondamentale
Il modello scompone i problemi in fasi logiche consecutive, simile a un ragionamento umano:
- Analizza inizialmente il contesto della richiesta
- Suddivide il problema in sotto-passaggi
- Elabora gradualmente verso la soluzione finale
Caratteristiche distintive
Vantaggi tecnici
- Risoluzione efficiente di compiti complessi
- Particolare efficacia in matematica e programmazione
- Riduzione significativa del tempo di calcolo.
DeepSeek-R1 gestisce la complessità delle richieste attraverso un innovativo processo di ragionamento passo dopo passo, simile al funzionamento del cervello umano.
DeepSeek, come gestisce le richieste passo dopo passo
Processo di ragionamento
DeepSeek-R1 elabora le richieste complesse seguendo una strategia articolata:
- Pianifica ogni task in modo metodico
- Scompone i problemi in fasi logiche consecutive
- Simula un processo di “pensiero” prima di formulare la risposta
Approccio computazionale
- Lavora attraverso task multipli
- Richiede tempi operativi leggermente più lunghi
- Garantisce maggiore attendibilità e precisione dei contenuti
Performance distintive
Il modello dimostra capacità elevate in:
- Matematica
- Coding
- Problem-solving complesso
Restrizioni operative
- Blocca query ritenute “sensibili”
- Presenta alcune limitazioni su temi politici
- Si rifiuta di rispondere a domande su argomenti specifici come Xi Jinping
DeepSeek-R1 rappresenta un significativo passo avanti nell’elaborazione di richieste complesse, offrendo un approccio più simile al ragionamento umano rispetto ai modelli precedenti.
Performance
Il modello dimostra prestazioni superiori, specialmente in ambiti STEM, con la capacità di generare ragionamenti strutturati e approfonditi in modo autonomo.
Tariffe
DeepSeek-R1 offre tariffe significativamente più basse rispetto ai concorrenti, con un costo per token che è circa 27 volte inferiore rispetto a quello di OpenAI. Gli utenti possono inviare fino a 50 messaggi gratuiti al giorno.

DeepSeek offre la possibilità di provare i suoi modelli tramite una web app e app mobili senza costi apparenti. Gli utenti possono caricare documenti fino a 100 MB per l’estrazione del testo, ma non possono allegare file in modalità “DeepThink” (che attiva le capacità di ragionamento).
Dimitris Papailiopoulos, ricercatore principale del laboratorio di ricerca AI Frontiers di Microsoft, afferma che ciò che lo ha sorpreso di più di R1 è la sua semplicità ingegneristica. “DeepSeek punta a ottenere risposte precise piuttosto che a dettagliare ogni passaggio logico, riducendo in modo significativo il tempo di calcolo e mantenendo al contempo un alto livello di efficacia”, afferma.
DeepSeek rilasciato in sei versioni
DeepSeek ha anche rilasciato sei versioni più piccole di R1, abbastanza da poter essere eseguite localmente sui computer portatili, e sostiene che una di esse supera persino o1-mini di OpenAI in alcuni benchmark. “DeepSeek ha replicato in larga misura o1-mini e ne ha fatto un open source”, ha twittato il CEO di Perplexity, Aravind Srinivas.
Distillazione: anche i modelli più piccoli possono essere potenti
I modelli di ragionamento di modelli più grandi possono essere distillati in modelli più piccoli, ottenendo prestazioni migliori rispetto ai modelli di ragionamento scoperti tramite RL su modelli piccoli. L’open source DeepSeek-R1, così come le sue API, saranno utili alla comunità di ricerca per distillare meglio modelli più piccoli in futuro.
Utilizzando i dati di ragionamento generati da DeepSeek-R1, DeepSeek ha messo a punto diversi modelli densi che sono ampiamente utilizzati nella comunità di ricerca.
I risultati della valutazione dimostrano che i modelli densi più piccoli distillati hanno elevate prestazioni nei benchmark.
DeepSeek ha aperto alla comunità i checkpoint distillati da 1,5B, 7B, 8B, 14B, 32B e 70B basati sulle serie Qwen2.5 e Llama3.
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1 | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1 Distill Models
Model | Base Model | Download |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
I modelli di DeepSeek-R1-Distill sono messi a punto sulla base di modelli open-source, utilizzando campioni generati da DeepSeek-R1. DeepSeek ha modificato leggermente le loro configurazioni e i tokenizer.
DeepSeek-R1, le prestazioni tecniche
Il modello ha dimostrato ampie capacità, superando importanti concorrenti come:
- Llama 3.1 di Meta
- GPT-4o di OpenAI
- Claude Sonnet 3.5 di Anthropic
Nei test di benchmark, DeepSeek-R1 ha ottenuto risultati notevoli:
- 79,8% di successo nel benchmark matematico AIME 2024
- Punteggio Elo di 2.029 su Codeforces, superando il 96,3% dei concorrenti umani

Risultati della valutazione
Valutazione di DeepSeek-R1
Per tutti i modelli, la lunghezza massima della generazione è impostata a 32.768 token. Per i benchmark che richiedono il campionamento, si utilizza una temperatura di $0,6$, un valore top-p di $0,95$ e si generano 64 risposte per query per stimare pass@1.
Category | Benchmark (Metric) | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | OpenAI o1-mini | OpenAI o1-1217 | DeepSeek R1 |
---|---|---|---|---|---|---|---|
Architecture | – | – | MoE | – | – | MoE | |
# Activated Params | – | – | 37B | – | – | 37B | |
# Total Params | – | – | 671B | – | – | 671B | |
English | MMLU (Pass@1) | 88.3 | 87.2 | 88.5 | 85.2 | 91.8 | 90.8 |
MMLU-Redux (EM) | 88.9 | 88.0 | 89.1 | 86.7 | – | 92.9 | |
MMLU-Pro (EM) | 78.0 | 72.6 | 75.9 | 80.3 | – | 84.0 | |
DROP (3-shot F1) | 88.3 | 83.7 | 91.6 | 83.9 | 90.2 | 92.2 | |
IF-Eval (Prompt Strict) | 86.5 | 84.3 | 86.1 | 84.8 | – | 83.3 | |
GPQA-Diamond (Pass@1) | 65.0 | 49.9 | 59.1 | 60.0 | 75.7 | 71.5 | |
SimpleQA (Correct) | 28.4 | 38.2 | 24.9 | 7.0 | 47.0 | 30.1 | |
FRAMES (Acc.) | 72.5 | 80.5 | 73.3 | 76.9 | – | 82.5 | |
AlpacaEval2.0 (LC-winrate) | 52.0 | 51.1 | 70.0 | 57.8 | – | 87.6 | |
ArenaHard (GPT-4-1106) | 85.2 | 80.4 | 85.5 | 92.0 | – | 92.3 | |
Code | LiveCodeBench (Pass@1-COT) | 33.8 | 34.2 | – | 53.8 | 63.4 | 65.9 |
Codeforces (Percentile) | 20.3 | 23.6 | 58.7 | 93.4 | 96.6 | 96.3 | |
Codeforces (Rating) | 717 | 759 | 1134 | 1820 | 2061 | 2029 | |
SWE Verified (Resolved) | 50.8 | 38.8 | 42.0 | 41.6 | 48.9 | 49.2 | |
Aider-Polyglot (Acc.) | 45.3 | 16.0 | 49.6 | 32.9 | 61.7 | 53.3 | |
Math | AIME 2024 (Pass@1) | 16.0 | 9.3 | 39.2 | 63.6 | 79.2 | 79.8 |
MATH-500 (Pass@1) | 78.3 | 74.6 | 90.2 | 90.0 | 96.4 | 97.3 | |
CNMO 2024 (Pass@1) | 13.1 | 10.8 | 43.2 | 67.6 | – | 78.8 | |
Chinese | CLUEWSC (EM) | 85.4 | 87.9 | 90.9 | 89.9 | – | 92.8 |
C-Eval (EM) | 76.7 | 76.0 | 86.5 | 68.9 | – | 91.8 | |
C-SimpleQA (Correct) | 55.4 | 58.7 | 68.0 | 40.3 | – | 63.7 |
Distilled Model Evaluation
Model | AIME 2024 pass@1 | AIME 2024 cons@64 | MATH-500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
---|---|---|---|---|---|---|
GPT-4o-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820 |
QwQ-32B-Preview | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633 |
Innovazioni tecnologiche
Architettura Avanzata
- Multi-head Latent Attention (MLA): riduce il consumo di memoria del 40%.
La Multi-head Latent Attention (MLA) è un’innovativa tecnica di attenzione che risolve i problemi di memoria nelle architetture dei modelli di linguaggio di grandi dimensioni.
La MLA si concentra sulla compressione efficiente della cache Key-Value (KV) attraverso una strategia di decomposizione a basso rango. L’obiettivo principale è ridurre l’ingombro di memoria durante l’elaborazione dei token.
Componenti chiave:
- Compressione del vettore di input da dimensione originale (es. 4096) a dimensione latente ridotta (es. 1024)
- Proiezione di query, key e value in uno spazio vettoriale compresso
- Utilizzo di matrici di compressione e decompressione
Processo computazionale
- Proiezione latente
- Input vettoriale compresso in dimensione ridotta
- Creazione di un vettore latente per query, key e value
- Gestione degli embedding posizionali
- Utilizzo di Rotary Position Embeddings (RoPE) decoppiate
- Parte specifica del vettore dedicata alle informazioni posizionali
Vantaggi principali
- Riduzione memoria: Compressione della cache KV fino al 75%
- Prestazioni invariate: Mantenimento delle capacità espressive del modello
- Efficienza computazionale: Minore overhead di memoria.
Confronto con metodi tradizionali
Metodo | Dimensione cache KV | Complessità computazionale |
---|---|---|
Multi-Head Attention (MHA) | Alta | Standard |
Multi-Head Latent Attention (MLA) | Bassa | Leggermente aumentata |
La MLA rappresenta un approccio innovativo per gestire modelli di intelligenza artificiale sempre più grandi, ottimizzando l’utilizzo delle risorse computazionali.
- Apprendimento per rinforzo: sviluppa capacità di ragionamento in modo autonomo. Il modello è stato addestrato utilizzando tecniche di apprendimento per rinforzo, simili a quelle impiegate da AlphaZero di DeepMind, permettendo al sistema di migliorare le proprie capacità di ragionamento e risoluzione dei problemi senza la necessità di dati supervisionati.
Efficienza e accessibilità
- Open source con licenza MIT
- Costi operativi estremamente bassi: 0,14 dollari per milione di token (contro 7,50 dollari di OpenAI)
- Utilizza solo 2.000 GPU, rispetto alle 100.000 di modelli tradizionali.
Sfide di addestramento
Processo di training
- Addestramento su 14,8 miliardi di token con risorse limitate
- Superamento delle restrizioni di censura governative
- Ottimizzazione dell’efficienza computazionale con un budget inferiore a 6 milioni di dollari.
Quali sono le applicazioni pratiche di DeepSeek-R1
DeepSeek-R1 offre diverse applicazioni pratiche innovative, spaziando da settori tecnici a professionali:
Principali ambiti applicativi
Sviluppo software
- Completamento automatico di codice
- Risoluzione di problemi di programmazione
- Supporto nella scrittura di algoritmi complessi
Problem solving matematico
- Risoluzione di problemi matematici avanzati
- Elaborazione di calcoli complessi
- Supporto nell’inferenza logica
Analisi e ragionamento
- Elaborazione di quesiti logici
- Generazione di spiegazioni dettagliate
- Supporto decisionale in tempo reale
Vantaggi distintivi
Caratteristiche uniche
- Costi operativi ridotti del 95%
- Disponibilità di app gratuita per iOS
- Accessibilità per piccole e medie imprese
Prestazioni
- Capacità di ragionamento simile a modelli o1 e o3 di OpenAI
- Utilizzo prevalente di dataset cinesi
- Ottimizzazione per hardware semplice
DeepSeek-R1 rappresenta un’evoluzione significativa nell’intelligenza artificiale open-source, offrendo strumenti avanzati a costi accessibili.
DeepSeek, le origini
Con sede a Hangzhou, DeepSeek nasce da High-Flyer, un hedge fund cinese che utilizza l’intelligenza artificiale per analizzare dati finanziari. La transizione verso la ricerca sull’AI è stata guidata dal fondatore Liang Wenfeng, un ex studente dell’Università di Zhejiang con una formazione in ingegneria informatica ed elettronica, che ha voluto esplorare le potenzialità della scienza di base piuttosto che concentrarsi esclusivamente su ritorni finanziari immediati. DeepSeek è finanziato principalmente da High-Flyer e opera indipendentemente da grandi aziende tecnologiche cinesi come Baidu e Alibaba. Questo approccio ha permesso all’azienda di mantenere una certa libertà nella ricerca e nello sviluppo dei suoi modelli.
Come Sam Altman di OpenAI, Liang mira a costruire un’intelligenza artificiale generale (AGI).
Come DeepSeek-R1 ha superato le sanzioni statunitensi
Il successo di DeepSeek è ancora più notevole se si considerano i vincoli che le aziende cinesi di intelligenza artificiale devono affrontare a causa dei crescenti controlli sulle esportazioni di chip da parte degli Stati Uniti. Il successo di DeepSeek dimostra che queste misure non stanno funzionando come previsto: anziché indebolire le capacità di AI della Cina, le sanzioni sembrano spingere le startup a innovare in modi che privilegiano l’efficienza, la condivisione delle risorse e la collaborazione.
Per creare R1, DeepSeek ha dovuto rielaborare il processo di addestramento per ridurre lo sforzo sulle sue GPU, una varietà rilasciata da Nvidia per il mercato cinese che ha prestazioni limitate alla metà della velocità dei suoi prodotti di punta, secondo Zihan Wang, ex dipendente di DeepSeek e attuale dottorando in informatica alla Northwestern University.
DeepSeek-R1 è stato lodato dai ricercatori per la sua capacità di affrontare compiti di ragionamento complessi, in particolare in matematica e codifica.
La formazione di modelli linguistici di grandi dimensioni (LLM) richiede un team di ricercatori altamente qualificati e una notevole potenza di calcolo. La situazione è ulteriormente complicata dai controlli statunitensi sulle esportazioni di semiconduttori avanzati. La decisione di High-Flyer di avventurarsi nell’AI è però direttamente collegata a questi vincoli. Molto prima delle sanzioni, Liang ha acquistato una notevole scorta di chip Nvidia A100, un tipo ora vietato all’esportazione in Cina.
Si stima che DeepSeek disponga di una quantità di questi chip fra le 10mila e le 50mila unità. Il riconoscimento del potenziale di queste scorte per l’addestramento dell’AI ha spinto Liang a fondare DeepSeek, che ha potuto utilizzarle in combinazione con i chip a più bassa potenza per sviluppare i suoi modelli.
In un’intervista rilasciata al media cinese 36Kr nel luglio 2024, Liang ha dichiarato che un’ulteriore sfida che le aziende cinesi devono affrontare, oltre alle sanzioni sui chip, è che le loro tecniche di ingegneria dell’intelligenza artificiale tendono a essere meno efficienti. “Noi [la maggior parte delle aziende cinesi] dobbiamo consumare il doppio della potenza di calcolo per ottenere gli stessi risultati. Se a ciò si aggiungono le lacune nell’efficienza dei dati, ciò potrebbe significare che abbiamo bisogno di una potenza di calcolo fino a quattro volte superiore. Il nostro obiettivo è quello di colmare continuamente queste lacune”, ha dichiarato.
Ma DeepSeek ha trovato il modo di ridurre l’uso della memoria e accelerare i calcoli senza sacrificare in modo significativo la precisione. “Il team ama trasformare una sfida hardware in un’opportunità di innovazione”, afferma Wang.
Liang stesso rimane profondamente coinvolto nel processo di ricerca di DeepSeek, conducendo esperimenti insieme al suo team. “L’intero team condivide una cultura collaborativa e una dedizione alla ricerca dura”, afferma Wang.
La Cina è al secondo posto fra i produttori di AI
Oltre a dare priorità all’efficienza, le aziende cinesi stanno abbracciando sempre più i principi dell’open-source. Alibaba Cloud ha rilasciato oltre 100 nuovi modelli di intelligenza artificiale open-source, che supportano 29 lingue e si rivolgono a varie applicazioni, tra cui la codifica e la matematica. Allo stesso modo, startup come Minimax e 01.AI hanno reso disponibili i loro modelli.
Secondo un libro bianco pubblicato l’anno scorso dalla China Academy of Information and Communications Technology, un istituto di ricerca affiliato allo Stato, il numero di modelli di AI in tutto il mondo ha raggiunto i 1.328, il 36% dei quali proviene dalla Cina. La Cina si colloca così al secondo posto tra i maggiori contributori all’AI, dopo gli Stati Uniti.
“Il controllo delle esportazioni da parte degli Stati Uniti ha sostanzialmente messo le aziende cinesi in un angolo, costringendole a essere molto più efficienti con le loro limitate risorse informatiche”, afferma Matt Sheehan, ricercatore di AI presso il Carnegie Endowment for International Peace. “Probabilmente in futuro assisteremo a un forte consolidamento legato alla mancanza di calcolo”.
Questo potrebbe già essere iniziato. Due settimane fa, Alibaba Cloud ha annunciato di aver stretto una partnership con la startup 01.AI, fondata da Kai-Fu Lee e con sede a Pechino, per unire i team di ricerca e creare un “laboratorio industriale di grandi modelli”.
“È efficiente dal punto di vista energetico e naturale che emerga una sorta di divisione del lavoro nel settore dell’AI”, afferma Cao, professore della Tufts. “La rapida evoluzione dell’IA richiede agilità alle aziende cinesi per sopravvivere”.
Conclusioni
DeepSeek rappresenta un significativo passo avanti nel panorama dell’intelligenza artificiale, specialmente nell’ambito dei modelli linguistici open-source. Con il suo focus su efficienza, prestazioni elevate e accessibilità, potrebbe influenzare notevolmente il futuro dello sviluppo dell’AI sia in Cina che a livello globale. Tuttavia, è importante notare che operando in Cina, DeepSeek deve conformarsi alle normative locali riguardanti i contenuti e la censura.