tecnologia

DeepSeek R1: la svolta della peer review nell’intelligenza artificiale



Indirizzo copiato

Si tratta del primo grande modello linguistico ad aver superato la revisione paritaria di Nature. La pubblicazione segna un passo cruciale verso la trasparenza scientifica nell’AI, ma solleva interrogativi su sicurezza, contaminazione dei dati e reali margini di apertura

Pubblicato il 7 ott 2025



DeepSeek R1 peer review

Nel settembre 2025 Nature ha pubblicato la prima revisione paritaria di un modello linguistico di grandi dimensioni. Si tratta di DeepSeek R1, sviluppato a Hangzhou da DeepSeek-AI, un’azienda cinese che ha scelto di rendere disponibili i pesi del modello ma non il codice sorgente né i dataset di addestramento. È un approccio “open-weight”: consente a ricercatori e sviluppatori di scaricare, utilizzare e perfezionare il modello, senza però disporre di totale trasparenza sulle origini dei dati.

La prima volta di un LLM sotto revisione accademica

Il riconoscimento da parte di una delle principali riviste scientifiche internazionali rappresenta una discontinuità con le pratiche di molte big tech, che pubblicano i propri LLM attraverso preprint o report interni, privi di verifica esterna. Finora nessuno tra i modelli più diffusi – da GPT a Claude – è stato oggetto di peer review formale.

DeepSeek R1 peer review
La pipeline multistadio di DeepSeek-R1 (Fonte: Nature)

Reinforcement learning e ragionamento autonomo

Il cuore di DeepSeek R1 risiede nell’uso avanzato del reinforcement learning, un metodo che consente al modello di imparare a “ragionare” premiando le risposte corrette e penalizzando quelle errate, senza un intervento umano diretto.

La strategia prevede che l’LLM generi catene di pensiero intermedie e successivamente verifichi la coerenza della propria conclusione. In questo modo sviluppa capacità di auto-controllo e verifica logica, distaccandosi dal semplice completamento di testo.

La metodologia è stata resa più efficiente attraverso un algoritmo proprietario, il Group Relative Policy Optimization (GRPO), che ha ridotto i costi di addestramento. Secondo il paper pubblicato, l’intero processo sarebbe costato circa 294mila dollari su 512 GPU Nvidia H800, un valore sorprendentemente basso rispetto ai miliardi investiti da colossi occidentali.

I risultati nei benchmark matematici e di logica, come l’AIME 2024, mostrano progressi significativi: dal 15% iniziale fino a quasi l’87% di accuratezza con tecniche di auto-coerenza.

DeepSeek R1 peer review
Precisione e lunghezza dell’output di DeepSeek-R1-Zero durante tutto il processo di addestramento (Fonte: Nature)

Dal modello “Zero” al modello finale

Il percorso si articola in due fasi principali. Il primo stadio, chiamato DeepSeek-R1-Zero, è addestrato partendo dal modello di base DeepSeek-V3 tramite l’algoritmo Group Relative Policy Optimization (GRPO), una variante del PPO ottimizzata per ridurre costi e complessità.

Durante l’addestramento, R1-Zero riceve solo due regole: racchiudere il proprio ragionamento tra i tag <think> e </think> e fornire poi la risposta in <answer>. Nessun vincolo semantico o logico: solo struttura e risultato finale. Da questa libertà è emerso un comportamento sorprendente. Nel corso dell’addestramento, il modello ha iniziato a “pensare più a lungo” – le risposte si sono allungate progressivamente fino a migliaia di token, segno che la rete stava autonomamente imparando a dedicare più tempo ai problemi complessi.

DeepSeek R1 peer review
Fonte: Nature

Questo processo ha prodotto un momento che i ricercatori definiscono “l’aha moment”: l’uso crescente della parola “wait” nelle catene di pensiero, interpretato come segnale di auto-riflessione. Il modello, in sostanza, ha imparato a fermarsi, riconsiderare la propria logica e correggersi.

Il risultato è stato una crescita vertiginosa delle prestazioni: dal 15,6% al 77,9% di accuratezza sul test matematico AIME 2024, fino all’86,7% con tecniche di auto-coerenza. Prestazioni superiori alla media umana e accompagnate da progressi analoghi nei test di coding e nelle materie STEM universitarie.

L’evoluzione verso DeepSeek-R1

Nonostante l’efficacia nel ragionamento, R1-Zero mostrava limiti pratici: mescolava inglese e cinese, era poco leggibile e non performava bene nei compiti generici come scrittura o dialogo aperto. Per questo è nato DeepSeek-R1, frutto di una pipeline multistadio che integra rejection sampling, supervised fine-tuning e due cicli di reinforcement learning.

Il primo ciclo ha affinato la coerenza linguistica e la comprensione contestuale, introducendo un “language consistency reward” per premiare risposte uniformi nella lingua del prompt. Il secondo ciclo ha integrato dati generali e criteri di helpfulness e harmlessness, rendendo il modello più sicuro e usabile nel dialogo con gli utenti.

Questa architettura progressiva ha permesso a R1 di mantenere la potenza logica di R1-Zero, migliorando però leggibilità, sicurezza e capacità di seguire istruzioni.

Il modello finale ottiene un +25% su AlpacaEval 2.0 e un +17% su Arena-Hard, due benchmark che misurano qualità e coerenza delle risposte orientate all’utente.

I dubbi sulla trasparenza dei dati

Uno dei punti più discussi riguarda la possibile contaminazione dei benchmark. È noto che i modelli possono ottenere punteggi artificialmente elevati se addestrati su dataset che includono esempi di test o risposte di riferimento. I revisori di Nature hanno chiesto chiarimenti a DeepSeek, che ha risposto includendo valutazioni su benchmark pubblicati successivamente alla release del modello, nel tentativo di dimostrare l’assenza di “data leakage”.

Tuttavia, la comunità scientifica resta cauta: con dataset web su larga scala, è quasi impossibile garantire che nessun frammento di prova sia mai apparso nei dati di addestramento.

Questa ambiguità solleva un tema più ampio: quanto sono affidabili le metriche con cui oggi si misura l’intelligenza artificiale? I benchmark tradizionali, da MMLU a GSM8K, rischiano di diventare strumenti di marketing più che veri indicatori di competenza.

Sicurezza e allineamento: le modifiche chieste dai revisori

Un altro intervento significativo della revisione riguarda la sicurezza. I revisori hanno segnalato l’assenza di un’analisi sui rischi potenziali del modello, come la possibilità di generare contenuti dannosi o di essere riutilizzato per scopi malevoli. DeepSeek ha quindi aggiunto una sezione dedicata ai test di robustezza e ai confronti con modelli concorrenti, descrivendo le misure adottate per prevenire abusi.

Nonostante ciò, alcuni esperti ritengono che i modelli open-weight rimangano più esposti: una volta scaricati, non esiste più controllo su come vengano modificati.

Studi indipendenti hanno mostrato che LLM di questo tipo possono essere facilmente sottoposti a jailbreak o prompt injection, con cui è possibile eludere i filtri di sicurezza. Altri report hanno rivelato che R1 tende a censurare alcune query politicamente sensibili, suggerendo la presenza di meccanismi di allineamento selettivo, coerenti con il contesto normativo cinese.

Un esperimento che cambia il rapporto tra industria e scienza

L’approccio di DeepSeek ha implicazioni profonde. Da un lato, dimostra che la peer review può convivere con l’industria, senza compromettere i segreti commerciali. Dall’altro, stabilisce un precedente che spinge verso maggiore responsabilità nelle dichiarazioni di performance. In un settore in cui l’hype domina la narrativa, l’idea di dover “dimostrare” scientificamente ciò che si afferma rappresenta un freno salutare.

Alcune aziende hanno iniziato a seguire la stessa direzione. OpenAI e Anthropic hanno recentemente testato reciprocamente i propri modelli per individuare vulnerabilità ignorate dai team interni. Mistral AI ha pubblicato una valutazione sull’impatto ambientale dei propri sistemi in collaborazione con consulenti esterni. Tuttavia, nessuna di queste iniziative eguaglia la trasparenza strutturale del processo editoriale di Nature, con revisori indipendenti e scambio pubblico di osservazioni e risposte.

Un equilibrio fragile tra apertura e controllo

La pubblicazione di R1 solleva anche interrogativi geopolitici. Mentre l’amministrazione statunitense definisce i modelli open-weight “essenziali per la ricerca accademica”, la Cina tende a promuovere un’apertura controllata, funzionale agli obiettivi strategici nazionali. DeepSeek, in questo senso, si muove in equilibrio tra cooperazione scientifica e sovranità tecnologica.

Sul piano etico, la questione resta aperta: fino a che punto è possibile divulgare dettagli di modelli avanzati senza alimentare rischi di abuso o perdita di proprietà intellettuale? La revisione paritaria non impone l’apertura totale dei dati, ma esige la verificabilità delle affermazioni. È questo, in definitiva, il valore più rilevante dell’operazione.

Oltre R1: il futuro della valutazione indipendente

L’esperimento di DeepSeek potrebbe spingere il settore verso standard più rigorosi di validazione, magari attraverso enti indipendenti capaci di replicare i test e verificare la sicurezza dei modelli. L’idea di un “audit scientifico” dell’intelligenza artificiale non è più utopica: l’AI, che sempre più incide su sanità, finanza e politica, deve sottostare a regole di trasparenza simili a quelle di ogni altra tecnologia ad alto impatto sociale.

Resta da vedere se le aziende occidentali, protette da modelli chiusi e licenze restrittive, saranno disposte a seguire l’esempio di DeepSeek.

La peer review non è una minaccia competitiva, ma un atto di responsabilità collettiva. Se l’industria accetterà di “portare i propri LLM al giudizio dei pari”, come auspicato da Nature, il settore potrà finalmente passare da promesse a prove.

Articoli correlati