DeepSeek ha annunciato il 29 maggio un importante aggiornamento del suo modello R1, il cui debutto globale lo scorso gennaio aveva sconvolto il mercato, facendo crollare le azioni tech non cinesi e infrangendo il mito secondo cui l’avanzamento dell’AI richiederebbe necessariamente enormi risorse computazionali. La nuova versione, denominata R1-0528, rappresenta una release minore, ma con impatti significativi sulle performance logiche e inferenziali del sistema.
Secondo quanto dichiarato da DeepSeek su Hugging Face, la piattaforma di riferimento per gli sviluppatori di AI, il modello R1-0528 mostra miglioramenti tangibili nella capacità di gestire compiti complessi, avvicinandosi alle performance dei modelli “reasoning” di OpenAI (o3) e di Gemini 2.5 Pro di Google. La società, con sede a Hangzhou, ha evidenziato come la frequenza di “hallucinations” – ovvero risposte false o fuorvianti – sia stata ridotta del 45-50% in compiti di riscrittura e sintesi testuale.
Indice degli argomenti:
DeepSeek-R1-0528: versatilità creativa e nuove competenze tecniche
L’aggiornamento non si limita a migliorare la precisione: DeepSeek afferma che il modello R1-0528 è ora capace di scrivere in modo creativo saggi, romanzi e altri generi letterari. Inoltre, ha incrementato le sue abilità nella generazione di codice front-end e nel role-playing, aprendo nuove prospettive applicative sia in ambito industriale che consumer.
“Il modello ha dimostrato prestazioni eccezionali in diversi benchmark, inclusi matematica, programmazione e logica generale,” ha dichiarato l’azienda. Questi risultati consolidano la reputazione di DeepSeek come uno degli attori più avanzati nel panorama AI, in grado di rivaleggiare con colossi come OpenAI e Google, ma a costi sensibilmente inferiori.
Deep Seek-R1-0528: più profondità nel ragionamento e ottimizzazioni post-training
Il modello DeepSeek-R1, nella sua nuova versione 0528, rappresenta un importante passo avanti nonostante sia definito un “aggiornamento minore”. In realtà, l’incremento delle prestazioni è reso possibile grazie all’impiego di maggiori risorse computazionali e all’introduzione di meccanismi di ottimizzazione algoritmica nella fase di post-addestramento. Questi interventi hanno consentito un’evoluzione tangibile delle capacità del modello, che ora si distingue per una maggiore profondità nel ragionamento e nell’inferenza, elementi cruciali per compiti ad alta complessità.
Le prestazioni di R1-0528 nei benchmark internazionali confermano il progresso: i test matematici, le prove di programmazione e i compiti logici generali mostrano miglioramenti significativi. In particolare, nei test AIME 2025, composti da domande di matematica estremamente difficili, la precisione del modello è passata dal 70% della versione precedente all’attuale 87,5%, un balzo notevole che colloca DeepSeek R1-0528 vicino ai modelli leader come OpenAI o3 e Gemini 2.5 Pro di Google.

DeepSeek-R1-0528: maggiore profondità cognitiva, da 12K a 23K token per risposta
A testimonianza del miglioramento nel processo di ragionamento, vi è l’aumento significativo del numero di token medi utilizzati per domanda. Se nella precedente versione del modello R1 venivano usati in media 12mila token per quesito durante l’elaborazione delle risposte nel test AIME, ora la media è salita a 23mila token, un indicatore diretto della maggiore profondità cognitiva raggiunta dal sistema.
Questo approccio consente al modello di sviluppare catene di ragionamento più articolate, migliorando non solo l’accuratezza, ma anche la capacità di gestire ambiguità, inferenze multiple e task multilivello. È una strategia che riecheggia i recenti sviluppi nel paradigma chain-of-thought prompting, utilizzato per simulare un ragionamento più simile a quello umano nei modelli linguistici.
DeepSeek-R1-0528: allucinazioni ridotte e nuove funzionalità di function calling e vibe coding
Il miglioramento delle capacità logiche non è l’unica novità del modello. DeepSeek ha anche lavorato per ridurre ulteriormente il tasso di allucinazioni, uno dei problemi più critici nell’applicazione dell’IA generativa. R1-0528 mostra ora una riduzione del 45-50% di risposte erronee in contesti come sintesi e riscrittura di testi, contribuendo a una maggiore affidabilità in scenari reali.
In parallelo, il modello ha migliorato il supporto al function calling, una caratteristica sempre più centrale nei sistemi AI che devono interagire con API esterne o funzioni predefinite.
Inoltre, l’esperienza di “vibe coding”, ovvero la capacità di generare codice in modo coerente con uno stile preesistente o un certo “tono tecnico”, è stata affinata, rendendo il modello uno strumento utile anche per sviluppatori front-end e full stack.
Category | Benchmark (Metric) | DeepSeek R1 | DeepSeek R1 0528 |
General | |||
MMLU-Redux (EM) | 92.9 | 93.4 | |
MMLU-Pro (EM) | 84.0 | 85.0 | |
GPQA-Diamond (Pass@1) | 71.5 | 81.0 | |
SimpleQA (Correct) | 30.1 | 27.8 | |
FRAMES (Acc.) | 82.5 | 83.0 | |
Humanity’s Last Exam (Pass@1) | 8.5 | 17.7 | |
Code | |||
LiveCodeBench (2408-2505) (Pass@1) | 63.5 | 73.3 | |
Codeforces-Div1 (Rating) | 1530 | 1930 | |
SWE Verified (Resolved) | 49.2 | 57.6 | |
Aider-Polyglot (Acc.) | 53.3 | 71.6 | |
Math | |||
AIME 2024 (Pass@1) | 79.8 | 91.4 | |
AIME 2025 (Pass@1) | 70.0 | 87.5 | |
HMMT 2025 (Pass@1) | 41.7 | 79.4 | |
CNMO 2024 (Pass@1) | 78.8 | 86.9 | |
Tools | |||
BFCL_v3_MultiTurn (Acc) | – | 37.0 | |
Tau-Bench (Pass@1) | – | 53.5(Airline)/63.9(Retail) |
Parametri di generazione e pass@1: prestazioni su larga scala
Dal punto di vista tecnico, DeepSeek ha fissato a 64mila token la lunghezza massima di generazione per tutti i modelli, inclusa la versione R1-0528. Per i benchmark che richiedono una modalità di campionamento, sono stati adottati i seguenti parametri: temperatura 0.6, top-p 0.95, con 16 risposte generate per ogni query al fine di stimare la metrica pass@1, un indicatore chiave nella valutazione della precisione al primo tentativo.
Questi parametri evidenziano l’attenzione di DeepSeek alla robustezza statistica delle sue valutazioni, allineandosi alle migliori pratiche adottate nei test sui modelli linguistici di nuova generazione.
Un modello maturo per la prossima era dell’intelligenza artificiale
Con l’aggiornamento R1-0528, DeepSeek consolida la propria posizione nel panorama dell’intelligenza artificiale, proponendo un sistema che abbina profondità di ragionamento, precisione matematica, creatività testuale e flessibilità tecnica. La sua architettura ottimizzata, unita alla disponibilità del modello distillato per scenari a bassa potenza computazionale, fa di DeepSeek un esempio pionieristico della nuova era dell’AI scalabile e accessibile.
La community internazionale guarda ora a DeepSeek R2, l’atteso successore, con grande attenzione. Se queste sono le premesse, il prossimo passo potrebbe ridefinire ulteriormente le frontiere dell’intelligenza artificiale globale.
DeepSeek-R1-0528-Qwen3-8B: la distillazione che sfida i giganti dell’open source
Parallelamente allo sviluppo del modello R1-0528, DeepSeek ha dato vita a un progetto strategico altrettanto rilevante: la distillazione della catena di ragionamento (chain-of-thought) del modello principale in una versione più leggera ma sorprendentemente efficace, denominata DeepSeek R1-0528-Qwen3-8B.
Si tratta di un’evoluzione del modello Qwen3 8B Base, sviluppato da Alibaba, sul quale è stato applicato il ragionamento avanzato di R1-0528 tramite una fase di post-addestramento (post-training).
Il risultato? Una performance di livello state-of-the-art (SOTA) tra tutti i modelli open source, in particolare nel benchmark AIME 2024, dove ha superato Qwen3 8B di oltre +10% in accuratezza e ha eguagliato le prestazioni del potente Qwen3-235B-thinking, un modello molto più grande e costoso.
DeepSeek sottolinea che questa catena di ragionamento distillata rappresenta un valore fondamentale sia per la ricerca accademica, in ambito logico e inferenziale, sia per lo sviluppo industriale di modelli compatti, pensati per operare in ambienti con risorse limitate o per essere integrati in applicazioni mobili, embedded o edge computing.
AIME 24 | AIME 25 | HMMT Feb 25 | GPQA Diamond | LiveCodeBench (2408-2505) | |
Qwen3-235B-A22B | 85.7 | 81.5 | 62.5 | 71.1 | 66.5 |
Qwen3-32B | 81.4 | 72.9 | – | 68.4 | – |
Qwen3-8B | 76.0 | 67.3 | – | 62.0 | – |
Phi-4-Reasoning-Plus-14B | 81.3 | 78.0 | 53.6 | 69.3 | – |
Gemini-2.5-Flash-Thinking-0520 | 82.3 | 72.0 | 64.2 | 82.8 | 62.3 |
o3-mini (medium) | 79.6 | 76.7 | 53.3 | 76.8 | 65.9 |
DeepSeek-R1-0528-Qwen3-8B | 86.0 | 76.3 | 61.5 | 61.1 | 60.5 |
Un modello accessibile: dalla chat pubblica all’API compatibile con OpenAI
La strategia di apertura promossa da DeepSeek si riflette anche nelle modalità di accesso ai suoi modelli. Gli utenti possono interagire direttamente con DeepSeek-R1 tramite chat sul sito ufficiale chat.deepseek.com, dove è disponibile la modalità “DeepThink” per attivare il ragionamento potenziato del modello.
Per gli sviluppatori e le aziende, è invece disponibile una API compatibile con OpenAI sulla piattaforma platform.deepseek.com, che consente una facile integrazione con applicazioni esistenti e strumenti che già supportano l’API di OpenAI, abbattendo le barriere all’adozione.
Esecuzione locale: una documentazione chiara e funzionalità migliorate
DeepSeek mette inoltre a disposizione degli utenti e dei developer tutte le istruzioni necessarie per eseguire localmente DeepSeek-R1-0528, tramite il repository ufficiale che documenta requisiti, ambienti consigliati e configurazioni ottimali.
Rispetto alle versioni precedenti, l’utilizzo del nuovo modello presenta alcune semplificazioni significative:
- Ora è supportato il “system prompt”, ovvero l’istruzione iniziale che consente di indirizzare il comportamento del modello in un determinato contesto operativo.
- Non è più necessario forzare il ragionamento aggiungendo manualmente il tag
"<think>\n"
all’inizio dell’output, grazie alla ottimizzazione intrinseca nel pattern cognitivo del modello.
Compatibilità e architettura: Qwen3-8B fuori, DeepSeek dentro
Dal punto di vista tecnico, DeepSeek-R1-0528-Qwen3-8B mantiene l’architettura identica al modello Qwen3-8B, ma adotta la tokenizzazione avanzata del modello R1-0528, rendendolo un ibrido che unisce efficienza architetturale e profondità semantica. Questo significa che può essere eseguito con le stesse modalità di Qwen3-8B, ma con risultati decisamente superiori, senza richiedere hardware estremo o configurazioni speciali.
Una nuova frontiera per modelli compatti e intelligenti
Con la doppia traiettoria rappresentata da R1-0528 e dalla sua versione distillata DeepSeek-R1-0528-Qwen3-8B, DeepSeek si posiziona come protagonista nella costruzione di una nuova generazione di modelli linguistici: performanti ma leggeri, accessibili ma rigorosi, open-source ma competitivi rispetto alle soluzioni chiuse delle big tech americane.
Questa visione unisce rigore scientifico, apertura e sostenibilità computazionale, aprendo scenari inediti per l’adozione dell’AI nel settore pubblico, nella ricerca, nelle startup e nei dispositivi di prossima generazione. Se l’intelligenza artificiale del futuro sarà davvero ubiqua, è possibile che DeepSeek abbia già tracciato il sentiero.
Una versione distillata per democratizzare l’accesso all’intelligenza artificiale
DeepSeek-R1-0528-Qwen3-8B è una versione “distillata” basata sul modello Qwen3-8B di Alibaba, lanciato a maggio. Questo modello più leggero ha raggiunto prestazioni sorprendenti, superando Gemini 2.5 Flash di Google nel benchmark AIME 2025, una raccolta di quesiti matematici avanzati, e avvicinandosi ai risultati del modello Phi 4 di Microsoft nel test HMMT.
Sebbene i modelli distillati siano generalmente meno potenti delle loro controparti “full-size”, presentano vantaggi cruciali in termini di efficienza computazionale. Mentre il nuovo R1 richiede l’utilizzo di circa dodici GPU da 80 GB (come le Nvidia H100), Qwen3-8B può essere eseguito con una sola GPU da 40-80 GB, rendendo l’intelligenza artificiale ad alte prestazioni più accessibile a sviluppatori indipendenti e piccole aziende.
Un approccio strategico tra ricerca accademica e sviluppo industriale
Il processo di “distillazione” utilizzato da DeepSeek per creare il nuovo modello consiste nel utilizzare i testi generati da R1-0528 per addestrare e affinare Qwen3-8B. Il risultato è una versione che supera del 10% le prestazioni del modello originale di Alibaba, pur mantenendo un ingombro computazionale ridotto.
Secondo DeepSeek, il valore di questa operazione va oltre la semplice efficienza tecnica: “Riteniamo che la catena logica di DeepSeek-R1-0528 rivestirà un’importanza significativa sia per la ricerca accademica sui modelli di ragionamento, sia per lo sviluppo industriale di modelli su piccola scala”.
Il modello è disponibile con licenza MIT, quindi può essere usato liberamente anche per scopi commerciali. Piattaforme come LM Studio lo stanno già offrendo tramite API, facilitandone l’integrazione in progetti software e applicazioni.
Una concorrenza sempre più accesa con i colossi americani
Il successo di DeepSeek dimostra che le restrizioni imposte dalle limitazioni alle esportazioni statunitensi non sono riuscite a rallentare l’avanzata dell’IA cinese. Al contrario, l’azienda ha mostrato di poter competere con le più grandi realtà globali, proponendo modelli all’avanguardia, ma decisamente più economici.
Non a caso, Google ha reagito con sconti sui suoi modelli Gemini, mentre OpenAI ha lanciato una versione o3 Mini a bassa intensità computazionale, proprio per rispondere all’ascesa di DeepSeek.
La community attende ora con impazienza il prossimo grande passo della startup: il modello R2, erede del R1, la cui uscita era prevista inizialmente per maggio, secondo fonti riportate da Reuters. Nel frattempo, DeepSeek ha aggiornato anche il suo modello linguistico V3 lo scorso marzo, segno di una roadmap di sviluppo particolarmente intensa e competitiva.
Conclusioni
Con l’aggiornamento di R1-0528 e la distillazione del modello su base Qwen3-8B, DeepSeek non solo rafforza la sua posizione di leadership nel campo del ragionamento computazionale, ma indica anche una possibile direzione futura per l’intero settore: modelli più piccoli, intelligenti, performanti e accessibili. Una sfida diretta ai colossi americani, ma anche un’opportunità per democratizzare l’adozione dell’AI in tutto il mondo.