C’è tanta confusione sui processi che portano alla nascita di un modello AI.
È noto ormai che c’è un training basato su dati. Meno noto che questo training ha diverse fasi, alcune massive, altre specialistiche e di dettaglio, con diversi ruoli per l’essere umano, ancora non eludibile. Ancora non siamo entrati insomma nell’addestramento automatico totale di un modello, alba di un ipotetico recursive self improvement infinito.
Sempre più spesso si usano dati sintetici per il training, è vero, ma con un ruolo persistente dell’umano. Se ne parla in una recente scoperta del New Scientist: alcuni addestratori invece di generare dati umani per il training hanno usato un chatbot. Un problema: a conferma che l’umano non può essere sostituito dal sintetico tout court.
La filiera che porta da un base model a un prodotto come GPT, Claude, Gemini o Grok è ormai abbastanza riconoscibile, anche se ogni laboratorio usa ricette, nomi e pesi diversi.
Le fasi principali allora sono
- pre-training,
- fine-tuning supervisionato,
- raccolta di preferenze,
- reward modeling,
- reinforcement learning,
- training sul ragionamento.
- test di sicurezza
- e post-training continuo.
Per un costo totale di decine di milioni di dollari.
Vediamo nel dettaglio.
| Modello | Costo training stimato | Fonte |
|---|---|---|
| DeepSeek-V3 | 5,576 milioni di dollari | DeepSeek, dato dichiarato per la run ufficiale |
| GPT-4 | circa 79 milioni di dollari | Stanford AI Index 2025 / Epoch AI |
| Gemini 1.0 Ultra | circa 192 milioni di dollari | Stanford AI Index 2025 / Epoch AI |
| Llama 3.1 405B | circa 170 milioni di dollari | Stanford AI Index 2025 / Epoch AI |
| Grok-2 | circa 107 milioni di dollari | Stanford AI Index 2025 / Epoch AI |
Indice degli argomenti:
Il pre-training: dove il modello impara lingua, codice e conoscenza generale
Il pre-training è la fase in cui il modello assorbe la maggior parte delle proprie capacità linguistiche e conoscenze generali. OpenAI, nel GPT-4 Technical Report del 2023, descrive GPT-4 come un modello Transformer pre-addestrato per prevedere il token successivo in un documento. È la formulazione tecnica del meccanismo di base: dato un contesto, il modello stima quale unità linguistica abbia più probabilità di venire dopo.
La scala è enorme. Meta, nel lancio di Llama 3.1 405B, ha indicato oltre 15 trilioni di token e più di 16 mila GPU Nvidia H100 per l’addestramento del suo modello più grande. DeepSeek, nel technical report di DeepSeek-V3, dichiara 14,8 trilioni di token, 2,788 milioni di ore GPU H800 e un costo della sola fase ufficiale di training stimato in 5,576 milioni di dollari, esclusi esperimenti preliminari e ricerca.
Il pre-training richiede anche una pipeline di preparazione dei dati: raccolta, deduplicazione, classificazione, filtri di qualità, filtri di sicurezza, tokenizzazione, bilanciamento tra lingue e domini. Google, nel report tecnico Gemini 2.5, indica per la serie 2.5 una base di pre-training multimodale con documenti web pubblici, codice, immagini, audio e video, con cutoff gennaio 2025 per Gemini 2.5. xAI, nella model card di Grok 4, descrive una ricetta con dati web pubblici, dati prodotti da terze parti, dati di utenti o contractor e dati generati internamente, filtrati con deduplicazione e classificazione.
Architettura e infrastruttura: Transformer, MoE e cluster distribuiti
Il pre-training non è solo una questione di dati. Conta anche l’architettura. Molti modelli restano basati su Transformer, ma cresce l’uso di architetture mixture-of-experts, che attivano solo una parte dei parametri per ciascun token. Google descrive Gemini 2.5 come una famiglia di Transformer sparse MoE multimodali; xAI aveva già rilasciato Grok-1 come modello MoE da 314 miliardi di parametri, con il 25% dei pesi attivi per token.
La scala introduce problemi ingegneristici propri: guasti hardware, instabilità numeriche, errori silenziosi, ripartenze, sincronizzazione tra cluster. Nel report Gemini 2.5, Google spiega di avere addestrato la famiglia su architettura TPUv5p, con training data-parallel sincrono su più pod da 8.960 chip distribuiti su più data center. Lo stesso report indica che, durante il run, il 93,4% del tempo è stato speso in computazione TPU e che circa lo 0,25% degli step è stato rieseguito per sospetta corruzione silenziosa dei dati.
Secondo Epoch AI, il compute usato per addestrare i frontier language model cresce di circa 5 volte l’anno dal 2020 e raddoppia ogni 5,2 mesi. Il costo di training dei modelli di frontiera, sempre secondo Epoch AI, cresce di circa 3,5 volte l’anno. Lo Stanford AI Index 2025, usando stime Epoch, colloca il costo di training di GPT-4 intorno a 79 milioni di dollari e quello di Llama 3.1 405B intorno a 170 milioni di dollari.
Questi numeri spiegano perché pochi soggetti addestrano modelli di frontiera da zero. Per imprese e sviluppatori, la scelta più frequente è diversa: usare un modello già addestrato, adattarlo con fine-tuning, retrieval augmented generation (RAG), dati proprietari, controlli applicativi e governance.
La scala dei training pubblicamente documentati mostra bene la distanza tra modelli di frontiera e adattamenti enterprise.
| Modello o fonte | Dato rilevante | Che cosa mostra |
|---|---|---|
| Llama 3.1 405B, Meta 2024 | oltre 15 trilioni di token, oltre 16 mila H100 | scala del pre-training open-weight di frontiera |
| DeepSeek-V3, DeepSeek 2024 | 14,8 trilioni di token, 2,788 milioni di ore GPU H800 | efficienza di training e ruolo dell’ottimizzazione |
| GPT-4, stima Stanford AI Index 2025/Epoch | circa 79 milioni di dollari | costo stimato dei modelli chiusi di frontiera |
| Llama 3.1 405B, stima Stanford AI Index 2025/Epoch | circa 170 milioni di dollari | aumento dei costi per i modelli più grandi |
| InstructGPT, OpenAI 2022 | circa 13 mila prompt SFT, 33 mila prompt reward model, 31 mila prompt PPO | dimensione relativamente piccola ma decisiva del post-training |
Il fine-tuning supervisionato: il modello diventa un assistente
Un base model sa completare testo, ma non necessariamente rispondere bene a una domanda. Può continuare un prompt, imitare stili, produrre frammenti incoerenti o ignorare vincoli. Il supervised fine-tuning, spesso indicato come SFT, serve a insegnare il formato dell’interazione: istruzione dell’utente, risposta utile, stile conversazionale, rispetto dei vincoli, struttura dell’output.
Nel paper OpenAI Training language models to follow instructions with human feedback, pubblicato a NeurIPS 2022, la pipeline InstructGPT parte da dimostrazioni scritte da annotatori. Il dataset SFT contiene circa 13 mila prompt di training. È piccolo rispetto ai trilioni di token del pre-training, ma cambia in modo sostanziale il comportamento del modello: gli insegna che cosa significa rispondere come assistente, non solo completare testo.
Questa fase oggi può essere umana, sintetica o ibrida. Nei modelli più avanzati gli esempi non sono soltanto domande e risposte generiche: includono codice, ragionamento matematico, analisi di documenti lunghi, uso di strumenti, chiamate a funzioni, risposta multimodale, policy di sicurezza, casi limite e scenari avversariali.
Reward model e preferenze: come si misura una buona risposta
Dopo il fine-tuning supervisionato entra in gioco il problema più difficile: definire che cosa sia una risposta migliore. Una risposta può essere grammaticalmente corretta ma incompleta, sicura ma evasiva, dettagliata ma sbagliata, brillante ma non aderente alla richiesta. Per questo molti laboratori raccolgono preferenze umane.
Nella pipeline InstructGPT, OpenAI ha usato circa 33 mila prompt per addestrare un reward model e circa 31 mila prompt per la fase PPO. Gli annotatori confrontavano più risposte allo stesso prompt; il reward model imparava a stimare quale risposta sarebbe stata preferita. Lo stesso paper indica che il team di annotazione principale era composto da circa 40 contractor e che, nelle valutazioni interne, le risposte del modello InstructGPT da 1,3 miliardi di parametri erano preferite a quelle di GPT-3 da 175 miliardi, nonostante una dimensione circa 100 volte inferiore.
Il reward model introduce però un rischio: il modello può imparare a massimizzare il punteggio invece della qualità reale. Questo fenomeno, noto come reward hacking, è uno dei motivi per cui il post-training moderno combina più segnali: preferenze umane, valutazioni automatiche, benchmark, test avversariali, ricompense verificabili e controlli di policy.
RLHF, DPO, GRPO: i diversi approcci al post-training
Per affinare ulteriormente, il metodo più noto è il RLHF, reinforcement learning from human feedback. Il modello genera risposte, il reward model assegna un punteggio, l’algoritmo di reinforcement learning modifica i parametri per rendere più probabili le risposte valutate meglio. Storicamente, l’algoritmo di riferimento è stato PPO, Proximal Policy Optimization.
Negli ultimi anni sono cresciute alternative più semplici o più efficienti. La DPO, Direct Preference Optimization, proposta da Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning e Chelsea Finn nel paper Direct Preference Optimization: Your Language Model is Secretly a Reward Model, elimina il reward model esplicito e l’ottimizzazione RL tradizionale, trasformando le preferenze in una loss di classificazione più diretta.
La GRPO, Group Relative Policy Optimization, introdotta nel paper DeepSeekMath Pushing the Limits of Mathematical Reasoning in Open Language Models, riduce il peso del modello critico usato in PPO stimando la baseline dai punteggi relativi di un gruppo di risposte. In DeepSeekMath, l’approccio ha migliorato compiti matematici come GSM8K, passato da 82,9% a 88,2%, e MATH, passato da 46,8% a 51,7% nella fase RL indicata dagli autori.
Il punto operativo è che il post-training non è più una fase unica. È una combinazione di ricette: SFT, reward model, RLHF, DPO, GRPO, rejection sampling, reward verificabili, giudici automatici, feedback umano e feedback generato da modelli.
Constitutional AI e feedback da altri modelli
Anthropic ha reso popolare un approccio diverso con la Constitutional AI. Nel paper del 2022 Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai e coautori descrivono un metodo in cui il modello produce critiche e revisioni delle proprie risposte usando una lista di principi, poi un modello valuta coppie di risposte sulla base di quei principi. La fase successiva usa reinforcement learning from AI feedback, cioè RLAIF.
Nella system card di Claude Opus 4 e Claude Sonnet 4, Anthropic indica che i modelli sono stati pre-addestrati su grandi dataset diversi e poi orientati a essere helpful, honest and harmless con tecniche che includono human feedback, Constitutional AI e training di tratti caratteriali selezionati. Per Claude 4, la system card cita anche un extended thinking mode, in cui il modello può spendere più tempo nel ragionamento prima della risposta.
Il vantaggio del feedback generato da AI è la scalabilità. Il limite è la dipendenza da principi, giudici e controlli che devono essere progettati con molta attenzione. Un modello che valuta un altro modello può amplificare errori, preferenze implicite o scorciatoie, se la pipeline non è verificata con dati indipendenti e valutazioni umane.
Dati sintetici e distillazione: quando il modello addestra altri modelli
I dati sintetici sono diventati una componente sempre più importante. Un modello forte può generare esercizi, soluzioni, esempi di dialogo, codice, spiegazioni, casi limite e dataset di ragionamento. Questi dati vengono filtrati, valutati e riusati per addestrare o rifinire altri modelli.
Google, nel report Gemini 2.5, descrive per i modelli più piccoli della famiglia l’uso della distillazione: un modello teacher più forte trasferisce qualità a modelli più economici da servire. Questo passaggio è rilevante per il mercato enterprise, perché molti casi d’uso non richiedono sempre il modello più grande. Un modello più piccolo, distillato e ben specializzato può offrire latenza inferiore, costi più prevedibili e maggiore controllabilità.
DeepSeek-R1, nel paper Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, mostra un’altra traiettoria: le capacità di ragionamento possono essere incentivate con reinforcement learning su compiti verificabili, riducendo la dipendenza da traiettorie di ragionamento annotate da esseri umani. Gli autori descrivono l’emergere di pattern come auto-verifica, riflessione e adattamento dinamico della strategia.
Reasoning training: il modello impara a spendere calcolo mentre risponde
La differenza più recente tra modelli “chat” e modelli “reasoning” riguarda il calcolo usato in inferenza. I primi tendono a produrre una risposta direttamente. I secondi sono addestrati a usare più passaggi interni prima di rispondere, soprattutto su matematica, coding, pianificazione, analisi multi-step e uso di strumenti.
OpenAI, nella system card di o1, descrive la serie o1 come addestrata con reinforcement learning su larga scala per ragionare usando chain-of-thought. Nel contributo su deliberative alignment, OpenAI indica che i modelli o-series vengono addestrati a ragionare su specifiche di sicurezza interpretabili prima di rispondere.
Google, nel report Gemini 2.5, afferma che i modelli Gemini Thinking sono addestrati con reinforcement learning per usare compute aggiuntivo in inferenza. Il report indica che questi modelli possono spendere anche decine di migliaia di forward pass durante una fase di thinking prima della risposta. Qui cambia il modello economico: non conta solo quanto costa addestrare il sistema, ma anche quanto calcolo viene consumato per ogni risposta difficile.
Safety, valutazioni e post-training continuo
Prima del rilascio entrano in gioco red teaming, benchmark, test di policy, valutazioni su cybersecurity, rischio biologico, allucinazioni, bias, prompt injection, tool use e comportamento agentico. Anthropic, nella system card di Claude 4, documenta test pre-deployment su violazioni della usage policy, reward hacking, sicurezza agentica e rischi di disallineamento.
Google, nel report Gemini 2.5, include valutazioni su cybersecurity, CBRN, machine learning R&D e deceptive alignment. xAI, nella model card di Grok 4, indica reinforcement learning con human feedback, reward verificabili e model grading, oltre al fine-tuning supervisionato di capacità specifiche.
Dopo il rilascio, il lavoro continua. I laboratori raccolgono segnali da benchmark, feedback degli utenti, bug report, valutazioni di sicurezza, attacchi riusciti, errori ricorrenti e casi di allucinazione. Questi dati alimentano nuovi cicli di post-training. Per questo la stessa famiglia di modelli può cambiare comportamento tra versioni successive anche quando il nome commerciale sembra simile.
Lo Stanford AI Index 2025 segnala anche l’impatto ambientale della scala: le emissioni stimate per il training passano da 588 tonnellate di CO2 equivalente per GPT-3 nel 2020 a 5.184 tonnellate per GPT-4 nel 2023 e 8.930 tonnellate per Llama 3.1 405B nel 2024, secondo la sezione Research and Development del report. Il training resta solo una parte del costo complessivo: quando un modello viene usato da milioni di utenti, l’inferenza diventa una voce permanente.
Dove nasce davvero il “sapere” del modello
Insomma: la conoscenza fattuale, le competenze linguistiche, la programmazione e una parte delle capacità di ragionamento emergono soprattutto nel pre-training.
Il comportamento da assistente nasce invece nel post-training.
In altre parole:
- il pre-training costruisce il modello generale;
- il fine-tuning gli insegna a rispondere;
- le preferenze e il reinforcement learning gli insegnano quali risposte sono migliori;
- il reasoning training gli insegna a usare più calcolo sui problemi complessi;
- i test di sicurezza e il post-training continuo cercano di correggere errori, rischi e comportamenti indesiderati.
Per le imprese, questa distinzione è decisiva. Addestrare da zero un modello di frontiera è un’attività industriale da grandi laboratori.
Preparare un sistema AI affidabile per un processo aziendale richiede invece un’altra catena: scelta del modello, dati proprietari puliti, retrieval, fine-tuning mirato quando serve, valutazioni di qualità, controlli di sicurezza, monitoraggio e governance.
Un tema di cui ci occupiamo spesso qui.


Partecipa alla community