Arriva ChatMinerva, evoluzione di uno dei più discussi llm italiani, dall’università la Sapienza di Roma, e rilancia l’attenzione su quello che l’Italia sta facendo in questo campo.
Sugli llm, ricordiamolo subito, siamo agli ultimi posti in Europa in tutte le classifiche, “il primo llm è il francese Mistral, che però è centesimo al mondo, per potenza. Qui dominano Usa e Cina. L’Ue è in forte ritardo e l’Italia è ancora più indietro”, ci dice Giovanni Miragliotta, direttore osservatorio artificial intelligence del Politecnico di Milano.
L’Italia però vuole esserci e sta cercando la propria strada puntando in diverse direzioni. Quello della ricerca accademica e dell’impegno industriale al tempo stesso, anche alla ricerca di nicchie utili da esplorare. Del resto la Strategia italiana AI 2024-2026 (che per altro ora andrebbe aggiornata per i prossimi anni) parla di sviluppo di sistemi di IA specifici per il contesto italiano e, nelle ricostruzioni sulla strategia, di modelli fondazionali multimodali nazionali.
Indice degli argomenti:
ChatMinerva della Sapienza
ChatMinerva, presentato a inizi giugno, nasce dal lavoro del gruppo Sapienza Nlp guidato da Roberto Navigli, in collaborazione con lo spin-off Babelscape, e usa la potenza di calcolo del supercomputer Leonardo di Cineca per i processi di training e fine-tuning
Minerva era già uno dei progetti più noti nel panorama nazionale: una famiglia di modelli addestrati da zero con forte presenza di dati italiani e inglesi. ChatMinerva aggiunge un livello applicativo: accesso web tramite un sistema di web Rag, finestra di contesto estesa a 32.000 token, gestione di documenti lunghi, comprensione multimodale e componenti di sicurezza per filtrare input e risposte indesiderate o sensibili.
È l’opportunità per fare un quadro di ciò che si muove in Italia in ambito llm.
La mappa degli llm italiani
È l’opportunità per fare un quadro di ciò che si muove in Italia in ambito llm.
Minerva
Minerva è la famiglia di modelli su cui si innesta ChatMinerva. La model card di Minerva-7B-instruct-v1.0 descrive un modello da 7 miliardi di parametri addestrato su quasi 2,5 trilioni di token, con 1,14 trilioni in italiano, 1,14 trilioni in inglese e 200 miliardi di codice. Si distingue per un’impostazione “italian-centric” fin dalla fase di pre-addestramento, invece di limitarsi ad adattare un modello nato per l’inglese.
Navigli annuncia un modello evoluto a 20miliardi di parametri ad autunno 2026. Va detto che è circa due ordini di grandezza inferiore rispetto agli attuali Gpt, Claude e simili (secondo stime di Semianalysis). L’abbiamo provato (è gratis, basta registrarsi) e, come anche confermano Antonio Cisternino (ricercatore all’università di Pisa) e Antonio Chella (ordinario di robotica all’università di Palermo), i risultati non sono comparabili a quelli di un llm “americano” o cinese (nemmeno rispetto a quelli “mini” e open), né per precisione né per approfondimento. ChatMinerva è apprezzabile come sforzo accademico, con poco budget, no per i risultati finali in sé.
Famiglia Domyn
Domyn ha molti modelli.
Italia-10B è l’evoluzione del percorso avviato da iGenius, oggi Domyn, con il precedente Italia-9B. Parte di una linea di modelli enterprise e sovrani orientati a finanza, industria, PA e contesti ad alta compliance.
Domyn Small è il modello open-weight da 10 miliardi di parametri con cui Domyn punta a coprire applicazioni enterprise in ambienti con vincoli di costo, latenza e risorse. La scheda ufficiale lo presenta con contesto nativo da 32 mila token, estendibile a 131 mila, licenza Mit e supporto a oltre 50 lingue, con enfasi su italiano, francese, tedesco, spagnolo e portoghese. È un modello rilevante perché aggiorna la traiettoria italiana verso llm più leggeri, adattabili e distribuibili anche fuori dai grandi datacenter centralizzati.
Colosseum-355B è il modello che Domyn indica come llm progettato per ambienti altamente regolamentati e disponibile come microservizio Nvidia Nim. Va distinto dal supercomputer Colosseum, infrastruttura AI sviluppata con Nvidia e pensata per training e deployment di modelli molto grandi. Mira così a sistemi di scala molto più alta, legati a sovranità dell’infrastruttura, controllo dei dati e casi d’uso mission-critical.
Domyn-Large è il modello di reasoning che Domyn presenta nel 2026 come evoluzione della propria collaborazione con Nvidia per l’AI sovrana europea. La società lo descrive come un modello da circa 260-263 miliardi di parametri, orientato a compiti enterprise strutturati come Text-to-SQL, Text-to-Cypher, estrazione di knowledge graph e classificazione di sicurezza.
Velvet di Almawave
Velvet, sviluppato da Almawave, è una famiglia che ora comprende Velvet 2B, Velvet Speech 2B, Velvet 14B e Velvet 25B. Almawave descrive Velvet come famiglia di llm nativamente sviluppati in Italia su architettura proprietaria, senza ricorso a modelli preesistenti. Velvet 14B opera in italiano e in altre cinque lingue europee, con vocabolario da 127 mila parole e finestra di contesto da 128 mila token; Velvet 25B è indicato per testi lunghi e complessi e per le 24 lingue ufficiali dell’Unione europea.
FastwebMIIA di Fastweb + Vodafone
FastwebMIIA resta uno dei modelli italiani più rilevanti per imprese e pubblica amministrazione. Fastweb lo presenta come un Large Language Model nazionale addestrato in Italia su un corpus eterogeneo prevalentemente in lingua italiana, con infrastrutture segregate, localizzate e gestite in Italia. Il modello è proposto per deployment on-premise o in private cloud, con licenze differenziate tra uso non commerciale e commerciale.
Vitruvian di Asc27
Vitruvian va aggiornato come famiglia di modelli Asc27, non come singolo Vitruvian-1 statico. La pagina benchmark pubblica cita modelli come Vitruvian_Scientist-14B, Vitruvian_Explainer-14B e Vitruvian_Smart-12B, con valutazioni su MMLU-Ita e altri test linguistici italiani. Il progetto si colloca nell’area dei modelli orientati a reasoning, spiegazione e domini specialistici.
Engineering EngGPT 2, il modello industriale MoE
Notevole EngGPT 2 di Engineering, soprattutto dopo il lancio dell’architettura IS-IA, Italy’s Sovereign Intelligence Architecture. Engineering presenta EngGPT2-16B-A3B come modello mixture of experts addestrato da zero, con 16 miliardi di parametri totali e circa 3 miliardi attivi per inferenza, pensato per efficienza computazionale e integrazione in architetture private e governabili.
La scheda Hugging Face e i materiali aziendali lo posizionano come modello aperto nei pesi ma con licenza non commerciale, addestrato su 2,5 trilioni di token. Il target è vicino a quello di Fastweb e Almawave per pubblico, ma diverso per architettura: PA e imprese che vogliono Private GenAI, controllo del modello, integrazione con altri modelli general-purpose e auditabilità.
Zagreus
Zagreus è la famiglia di small language model fondazionali della comunità MII-LLM, ideata e sponsorizzata dallo storico provider italiano Seeweb.
Il progetto comprende quattro modelli bilingui addestrati da zero su circa un trilione di token open source, che accoppiano l’inglese con italiano, spagnolo, portoghese e francese. La versione italiana, costruita su architettura Llama-3.2 modificata da circa 400 milioni di parametri e infrastruttura Seeweb, è significativa perché punta su apertura, riproducibilità e deployment edge.
Nesso
Nesso è la famiglia post-trained costruita sopra Zagreus. MII-LLM la presenta come insieme di small language model bilingui italiano-inglese da circa 400 milioni di parametri, ottimizzati per edge deployment e disponibili in varianti instruct, agentic e open source riproducibile. Rispetto ai modelli generalisti, Nesso mostra una strada diversa: modelli piccoli, specializzati, trasparenti e più economici da distribuire, utili quando l’obiettivo è integrare capacità linguistiche italiane in applicazioni circoscritte.
Maestrale
Maestrale, sempre nell’ecosistema MII-LLM, è un modello open source da 7 miliardi di parametri fine-tuned per produrre italiano di qualità, con capacità di integrazione via strumenti, JSON e chiamate API. Resta diverso dai modelli addestrati da zero: nasce da una base internazionale e viene adattato all’italiano. Questa distinzione è importante per valutare controllo sulla catena del modello, licenze, dati di origine e adeguatezza a contesti industriali sensibili.
Dante-2B
Dante-2B è uno dei progetti indipendenti più interessanti tra gli llm italiani del 2026. La model card lo descrive come modello bilingue italiano-inglese da 2,1 miliardi di parametri, addestrato interamente da zero da un singolo sviluppatore su due Nvidia H200 NVL, con tokenizer BPE da 64 mila token progettato per italiano e inglese. La licenza è Apache 2.0, il contesto dichiarato è di 4.096 token e il training copre 120 miliardi di token in tre fasi. Il valore del progetto sta nella scelta di trattare l’italiano come lingua nativa del modello, non come adattamento finale.
DanteLLM-7B
DanteLLM-7B appartiene alla stagione dei modelli italiani basati su fine-tuning. Il paper pubblicato a Lrec-Coling 2024 lo presenta come un lavoro costruito usando dataset già emersi nell’ecosistema italiano, tra cui quelli di Fauno e Camoscio. Resta utile per capire la fase intermedia della ricerca italiana: prima dei modelli nativi più recenti, una parte importante del lavoro passava dall’adattamento di modelli internazionali a dati e compiti italiani.
LLaMAntino-3 ANITA
LLaMAntino-3 ANITA è un adattamento italiano della famiglia LLaMA 3 sviluppato dal gruppo dell’Università di Bari e pubblicato su Scientific Reports il 3 febbraio 2026. Il lavoro presenta LLaMAntino-3-ANITA-8B-Inst-DPO-ITA, modello da 8 miliardi di parametri adattato alla lingua italiana con fine-tuning, QLoRA e Direct Preference Optimization. La sua importanza sta nel consolidare una linea di ricerca italiana sui modelli aperti adattati alla lingua, con attenzione a sicurezza, allineamento e valutazione su benchmark italiani.
Fauno
Fauno resta uno dei primi modelli conversazionali italiani open source. Il paper del 2023 lo presenta come un modello costruito su versioni 7B e 13B di Baize, a loro volta basate su LLaMA, con dataset conversazionali tradotti e generati per l’italiano. Nel 2026 va citato soprattutto come tappa storica: non è un modello industriale maturo, ma ha contribuito a creare dataset, pratiche e confronti nella prima stagione degli llm italiani.
Camoscio
Camoscio è un altro riferimento della prima ondata instruction-tuned italiana. Il paper lo descrive come fine-tuning LoRA di LLaMA 7B su prompt Alpaca tradotti in italiano. Il suo valore resta nella disponibilità di codice, dataset e pesi LoRA per la comunità, mentre i limiti sono quelli tipici dei primi adattamenti: dipendenza da modelli di base internazionali, dataset tradotti e finalità prevalentemente sperimentali.
Cerbero-7B
Cerbero-7B si inserisce nello stesso filone di modelli italiani specializzati tramite fine-tuning e costruzione di corpora conversazionali. Il paper del 2023 lo presenta come un modello che usa Mistral 7B e lavora su dataset italiani generati e filtrati, con valutazioni su benchmark come Squad-it ed Evalita. Nel quadro aggiornato al 2026 è soprattutto una tappa della ricerca su dataset italiani di migliore qualità.
GePpeTto
GePpeTto resta il riferimento storico per la generazione testuale in italiano. Il paper del 2020 lo definisce il primo modello generativo per l’italiano basato su architettura GPT-2. Con 117 milioni di parametri, addestrato su ItWac e Wikipedia italiana secondo la ricostruzione del paper DanteLLM, oggi è molto lontano dalle dimensioni dei modelli più recenti, ma conserva un valore storico: ha anticipato la necessità di modelli generativi non centrati sull’inglese.
DIABLO 354M
DIABLO 354M è un modello causale per l’italiano pubblicato su Hugging Face da Osiria. La model card lo descrive come un modello GPT-like da circa 354 milioni di parametri, ottenuto modificando l’architettura XGLM e pensato come foundation model di base per generazione e successivi fine-tuning. È un progetto di ricerca nella fascia dei modelli piccoli, più utile per sperimentazione e adattamenti che per impieghi enterprise critici.
Il panorama mostra una stratificazione più netta rispetto alla prima fase: modelli pionieristici di ricerca, fine-tuning italiani di basi internazionali, modelli nativi o quasi nativi, small language model riproducibili e stack enterprise orientati a sovranità, compliance e deployment privato.
La tabella dei modelli llm italiani: chi sono, come sono, chi li fa
| Modello | Soggetto | Tipo | Dati tecnici rilevanti | Posizionamento |
| ChatMinerva | Sapienza Nlp, Babelscape | Assistente multimodale basato su Minerva | Testo, immagini, documenti, pagine scansionate, web in tempo reale | Ricerca, analisi documentale, assistente italiano |
| Minerva | Sapienza Nlp, Fair, Cineca, Babelscape | Famiglia llm addestrata da zero | Minerva-7B-instruct: 7B parametri, quasi 2,5 trilioni di token | Ricerca, open models, base di ChatMinerva |
| Italia-10B | Domyn, già iGenius | Modello fondazionale enterprise | Evoluzione del percorso Italia-9B; focus su settori regolamentati | AI sovrana, imprese, PA e finanza |
| Domyn Small | Domyn | Open-weight reasoning model | 10B parametri, licenza Mit, 32K token nativi estendibili a 131K | Deployment enterprise leggero, on-premise e fine-tuning |
| Colosseum-355B | Domyn e Nvidia | Large language model enterprise | 355B parametri, indicato come microservizio Nvidia Nim | Ambienti regolamentati e casi mission-critical |
| Domyn-Large | Domyn | Reasoning model enterprise | Circa 260-263B parametri; Text-to-SQL, Text-to-Cypher, knowledge graph | AI sovrana europea per settori regolamentati |
| Velvet | Almawave | Famiglia llm nativa italiana | 2B, Speech 2B, 14B, 25B; 14B con 128K token; 25B per 24 lingue UE | Enterprise, PA, sanità, giustizia, documenti complessi |
| FastwebMIIA | Fastweb | LLM nazionale enterprise | 7B su corpus prevalentemente italiano; infrastrutture localizzate in Italia | Aziende, PA, private cloud e on-premise |
| Vitruvian | Asc27 | Famiglia di modelli italiani | Scientist-14B, Explainer-14B, Smart-12B nei benchmark pubblici | Reasoning, spiegazione, domini specialistici |
| Zagreus | MII-LLM, Seeweb | Small language model addestrato da zero | 0,4B; circa 1 trilione di token; varianti inglese + lingue romanze | Open source, edge AI, riproducibilità |
| Nesso | MII-LLM | Famiglia post-trained su Zagreus | Circa 0,4B; varianti instruct, agentic e open source | Edge deployment, agenti piccoli, output strutturati |
| Maestrale | MII-LLM | Fine-tuning italiano di Mistral 7B | 7B; italiano, tool use via JSON e API | Open source, integrazione e sperimentazione |
| Dante-2B | Sviluppatore indipendente | Modello addestrato da zero | 2,1B; tokenizer 64K; 120B token; Apache 2.0 | Italiano nativo, hardware contenuto, ricerca aperta |
| DanteLLM-7B | RSTLess Research | Fine-tuning italiano | 7B; usa dataset Fauno, Camoscio e altri | Ricerca e benchmark italiani |
| LLaMAntino-3 ANITA | Università di Bari | Adattamento italiano di LLaMA 3 | 8B instruct DPO; pubblicato su Scientific Reports nel 2026 | Interazione naturale in italiano, ricerca aperta |
| Fauno | RSTLess Research Group, Sapienza | Modello conversazionale italiano | Basato su Baize/LLaMA 7B e 13B; dataset sintetici italiani | Conversazionale open source e sperimentale |
| Camoscio | Ricerca open source | Instruction tuning italiano | LoRA su LLaMA 7B con Alpaca tradotto in italiano | Ricerca, instruction tuning, non produzione |
| Cerbero-7B | Comunità ricerca | Fine-tuning italiano | Mistral 7B con corpus conversazionale italiano generato e filtrato | Ricerca su dataset e qa in italiano |
| GePpeTto | Università di Pisa | Modello generativo italiano basato su GPT-2 | 117 milioni di parametri; ItWac e Wikipedia italiana | Riferimento storico per generazione in italiano |
| DIABLO 354M | Osiria | Causal language model italiano | 354M parametri; architettura GPT-like/XGLM modificata | Ricerca e generazione di base in italiano |
EngGPT 2 / EngGPT2-16B-A3B | Engineering | Modello llm MoE addestrato da zero | 16 miliardi di parametri totali, circa 3 miliardi attivi per inferenza, addestrato da zero su 2,5 trilioni di token | Private GenAI, PA, imprese, architetture sovrane, integrazione multi-model |
Llm italiani: dalla lingua alla sovranità operativa
Il filo comune è la lingua italiana, ma il valore industriale non dipende solo dalla qualità linguistica. Per imprese e amministrazioni pesano almeno quattro fattori: localizzazione dell’infrastruttura, controllo sui dati di training, licenza, possibilità di deployment in ambienti privati o segregati. FastwebMIIA insiste esplicitamente su infrastrutture localizzate in Italia e private cloud; Almawave posiziona Velvet su settori verticali e documenti complessi; iGenius e Minerva puntano sull’apertura e sulla costruzione di modelli italiani nativi o fortemente italian-centric.
Questa differenza è decisiva per i casi d’uso reali. Un modello che parla bene italiano può bastare per assistenza interna, sintesi o generazione di testi. Per sanità, giustizia, finanza, difesa, pubblica amministrazione o industria regolata servono garanzie più robuste: tracciabilità dei dati, audit, controlli su privacy e copyright, isolamento dell’infrastruttura, governance dei prompt e monitoraggio delle risposte.
ChatMinerva si inserisce proprio in questo passaggio. La sua funzione non è competere frontalmente con i grandi modelli globali sul numero di parametri, ma dimostrare che un modello italiano può diventare un assistente capace di leggere documenti, cercare online e gestire input multimodali. È un salto di prodotto, non solo di laboratorio.
Benchmark italiani, perché servono metriche native
La valutazione resta uno dei punti più delicati. Molti benchmark internazionali sono nati in inglese e poi tradotti, con il rischio di misurare male competenze linguistiche, riferimenti culturali e ambiguità proprie dell’italiano. Il progetto Evalita-LLM, descritto nel paper pubblicato nel 2025, nasce proprio per valutare gli llm su compiti italiani nativi, includendo sia task multiple choice sia task generativi e usando più prompt per ridurre la sensibilità dei risultati alla formulazione della domanda.
Il lavoro sulla leaderboard Evalita-LLM segnala anche un dato metodologico importante: i risultati few-shot tendono a superare quelli zero-shot per molti modelli, mentre dimensione e aggiornamento del modello restano variabili rilevanti. Il benchmark copre dieci task nativi italiani e mette a disposizione una classifica pubblica su Hugging Face, utile per confrontare modelli aperti su basi più trasparenti,
Per il mercato significa una cosa semplice: dichiarare che un modello “parla italiano” non basta. Bisogna capire su quali compiti, con quali prompt, in quale contesto e con quali limiti. La qualità percepita in una chat dimostrativa può non coincidere con affidabilità, robustezza e costanza in processi aziendali ripetitivi.
Tanti modelli, pochi vincitori generalisti
La corsa italiana agli llm non produrrà necessariamente un campione generalista capace di sfidare i grandi player statunitensi, cinesi o francesi su scala globale. Il vantaggio più realistico è in modelli e assistenti specializzati: lingua italiana, documenti amministrativi, corpus regolati, sanità, diritto, customer service, compliance, istruzione, industria e servizi finanziari.
La presenza di modelli piccoli come Zagreus, Nesso e Dante-2B mostra anche un’altra direzione: non tutto deve passare da modelli sempre più grandi. Per edge AI, applicazioni locali, sperimentazione e fine-tuning controllato, modelli da centinaia di milioni o pochi miliardi di parametri possono avere senso economico e tecnico, soprattutto quando il costo di inferenza pesa più della pura capacità generativa.
Il rischio opposto è la frammentazione. Troppi modelli annunciati come “italiani” senza chiarezza su dati, licenze, benchmark e maturità produttiva possono creare confusione tra imprese e amministrazioni. La distinzione tra modello addestrato da zero, fine-tuning, wrapper applicativo e assistente multimodale deve diventare parte della valutazione di acquisto.
Obiettivo ora: continuità, aggiornamento, qualità dei dati e adozione. Un llm italiano può avere senso se riduce dipendenze, migliora l’efficienza sulla lingua, offre maggiore controllo sui dati e risponde a vincoli regolatori o settoriali che i modelli globali trattano in modo generico. Senza questi elementi, il “made in Italy” resta un’etichetta debole.




