large language model

Chatminerva, Italia-10B e gli altri: la mappa degli LLM italiani

Dalla Sapienza a Cineca, da Domyn (ex iGenius) ad Almawave e Fastweb c’è un impegno crescente di soggetti pubblici e privati italiani per fare llm. Facciamo un bilancio per capire dove siamo e dove vogliamo andare, posto che il tema non è competere con la Silicon Valley

Pubblicato il 8 giu 2026

Aggiungi tra i preferiti su Google

Alessandro Longo

Direttore AI4business.it e Agenda Digitale

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Arriva ChatMinerva, evoluzione di uno dei più discussi llm italiani, dall’università la Sapienza di Roma, e rilancia l’attenzione su quello che l’Italia sta facendo in questo campo.

Sugli llm, ricordiamolo subito, siamo agli ultimi posti in Europa in tutte le classifiche, “il primo llm è il francese Mistral, che però è centesimo al mondo, per potenza. Qui dominano Usa e Cina. L’Ue è in forte ritardo e l’Italia è ancora più indietro”, ci dice Giovanni Miragliotta, direttore osservatorio artificial intelligence del Politecnico di Milano.

L’Italia però vuole esserci e sta cercando la propria strada puntando in diverse direzioni. Quello della ricerca accademica e dell’impegno industriale al tempo stesso, anche alla ricerca di nicchie utili da esplorare. Del resto la Strategia italiana AI 2024-2026 (che per altro ora andrebbe aggiornata per i prossimi anni) parla di sviluppo di sistemi di IA specifici per il contesto italiano e, nelle ricostruzioni sulla strategia, di modelli fondazionali multimodali nazionali.

ChatMinerva della Sapienza

ChatMinerva, presentato a inizi giugno, nasce dal lavoro del gruppo Sapienza Nlp guidato da Roberto Navigli, in collaborazione con lo spin-off Babelscape, e usa la potenza di calcolo del supercomputer Leonardo di Cineca per i processi di training e fine-tuning

Minerva era già uno dei progetti più noti nel panorama nazionale: una famiglia di modelli addestrati da zero con forte presenza di dati italiani e inglesi. ChatMinerva aggiunge un livello applicativo: accesso web tramite un sistema di web Rag, finestra di contesto estesa a 32.000 token, gestione di documenti lunghi, comprensione multimodale e componenti di sicurezza per filtrare input e risposte indesiderate o sensibili.

È l’opportunità per fare un quadro di ciò che si muove in Italia in ambito llm.

La mappa degli llm italiani

È l’opportunità per fare un quadro di ciò che si muove in Italia in ambito llm.

Minerva

Minerva è la famiglia di modelli su cui si innesta ChatMinerva. La model card di Minerva-7B-instruct-v1.0 descrive un modello da 7 miliardi di parametri addestrato su quasi 2,5 trilioni di token, con 1,14 trilioni in italiano, 1,14 trilioni in inglese e 200 miliardi di codice. Si distingue per un’impostazione “italian-centric” fin dalla fase di pre-addestramento, invece di limitarsi ad adattare un modello nato per l’inglese.

Navigli annuncia un modello evoluto a 20miliardi di parametri ad autunno 2026. Va detto che è circa due ordini di grandezza inferiore rispetto agli attuali Gpt, Claude e simili (secondo stime di Semianalysis). L’abbiamo provato (è gratis, basta registrarsi) e, come anche confermano Antonio Cisternino (ricercatore all’università di Pisa) e Antonio Chella (ordinario di robotica all’università di Palermo), i risultati non sono comparabili a quelli di un llm “americano” o cinese (nemmeno rispetto a quelli “mini” e open), né per precisione né per approfondimento. ChatMinerva è apprezzabile come sforzo accademico, con poco budget, no per i risultati finali in sé.

Famiglia Domyn

Domyn ha molti modelli.

Italia-10B è l’evoluzione del percorso avviato da iGenius, oggi Domyn, con il precedente Italia-9B. Parte di una linea di modelli enterprise e sovrani orientati a finanza, industria, PA e contesti ad alta compliance.

Domyn Small è il modello open-weight da 10 miliardi di parametri con cui Domyn punta a coprire applicazioni enterprise in ambienti con vincoli di costo, latenza e risorse. La scheda ufficiale lo presenta con contesto nativo da 32 mila token, estendibile a 131 mila, licenza Mit e supporto a oltre 50 lingue, con enfasi su italiano, francese, tedesco, spagnolo e portoghese. È un modello rilevante perché aggiorna la traiettoria italiana verso llm più leggeri, adattabili e distribuibili anche fuori dai grandi datacenter centralizzati.

Colosseum-355B è il modello che Domyn indica come llm progettato per ambienti altamente regolamentati e disponibile come microservizio Nvidia Nim. Va distinto dal supercomputer Colosseum, infrastruttura AI sviluppata con Nvidia e pensata per training e deployment di modelli molto grandi. Mira così a sistemi di scala molto più alta, legati a sovranità dell’infrastruttura, controllo dei dati e casi d’uso mission-critical.

Domyn-Large è il modello di reasoning che Domyn presenta nel 2026 come evoluzione della propria collaborazione con Nvidia per l’AI sovrana europea. La società lo descrive come un modello da circa 260-263 miliardi di parametri, orientato a compiti enterprise strutturati come Text-to-SQL, Text-to-Cypher, estrazione di knowledge graph e classificazione di sicurezza.

Velvet di Almawave

Velvet, sviluppato da Almawave, è una famiglia che ora comprende Velvet 2B, Velvet Speech 2B, Velvet 14B e Velvet 25B. Almawave descrive Velvet come famiglia di llm nativamente sviluppati in Italia su architettura proprietaria, senza ricorso a modelli preesistenti. Velvet 14B opera in italiano e in altre cinque lingue europee, con vocabolario da 127 mila parole e finestra di contesto da 128 mila token; Velvet 25B è indicato per testi lunghi e complessi e per le 24 lingue ufficiali dell’Unione europea.

FastwebMIIA di Fastweb + Vodafone

FastwebMIIA resta uno dei modelli italiani più rilevanti per imprese e pubblica amministrazione. Fastweb lo presenta come un Large Language Model nazionale addestrato in Italia su un corpus eterogeneo prevalentemente in lingua italiana, con infrastrutture segregate, localizzate e gestite in Italia. Il modello è proposto per deployment on-premise o in private cloud, con licenze differenziate tra uso non commerciale e commerciale.

Vitruvian di Asc27

Vitruvian va aggiornato come famiglia di modelli Asc27, non come singolo Vitruvian-1 statico. La pagina benchmark pubblica cita modelli come Vitruvian_Scientist-14B, Vitruvian_Explainer-14B e Vitruvian_Smart-12B, con valutazioni su MMLU-Ita e altri test linguistici italiani. Il progetto si colloca nell’area dei modelli orientati a reasoning, spiegazione e domini specialistici.

Engineering EngGPT 2, il modello industriale MoE

Notevole EngGPT 2 di Engineering, soprattutto dopo il lancio dell’architettura IS-IA, Italy’s Sovereign Intelligence Architecture. Engineering presenta EngGPT2-16B-A3B come modello mixture of experts addestrato da zero, con 16 miliardi di parametri totali e circa 3 miliardi attivi per inferenza, pensato per efficienza computazionale e integrazione in architetture private e governabili.

La scheda Hugging Face e i materiali aziendali lo posizionano come modello aperto nei pesi ma con licenza non commerciale, addestrato su 2,5 trilioni di token. Il target è vicino a quello di Fastweb e Almawave per pubblico, ma diverso per architettura: PA e imprese che vogliono Private GenAI, controllo del modello, integrazione con altri modelli general-purpose e auditabilità.

Zagreus

Zagreus è la famiglia di small language model fondazionali della comunità MII-LLM, ideata e sponsorizzata dallo storico provider italiano Seeweb.

Il progetto comprende quattro modelli bilingui addestrati da zero su circa un trilione di token open source, che accoppiano l’inglese con italiano, spagnolo, portoghese e francese. La versione italiana, costruita su architettura Llama-3.2 modificata da circa 400 milioni di parametri e infrastruttura Seeweb, è significativa perché punta su apertura, riproducibilità e deployment edge.

Nesso

Nesso è la famiglia post-trained costruita sopra Zagreus. MII-LLM la presenta come insieme di small language model bilingui italiano-inglese da circa 400 milioni di parametri, ottimizzati per edge deployment e disponibili in varianti instruct, agentic e open source riproducibile. Rispetto ai modelli generalisti, Nesso mostra una strada diversa: modelli piccoli, specializzati, trasparenti e più economici da distribuire, utili quando l’obiettivo è integrare capacità linguistiche italiane in applicazioni circoscritte.

Maestrale

Maestrale, sempre nell’ecosistema MII-LLM, è un modello open source da 7 miliardi di parametri fine-tuned per produrre italiano di qualità, con capacità di integrazione via strumenti, JSON e chiamate API. Resta diverso dai modelli addestrati da zero: nasce da una base internazionale e viene adattato all’italiano. Questa distinzione è importante per valutare controllo sulla catena del modello, licenze, dati di origine e adeguatezza a contesti industriali sensibili.

Dante-2B

Dante-2B è uno dei progetti indipendenti più interessanti tra gli llm italiani del 2026. La model card lo descrive come modello bilingue italiano-inglese da 2,1 miliardi di parametri, addestrato interamente da zero da un singolo sviluppatore su due Nvidia H200 NVL, con tokenizer BPE da 64 mila token progettato per italiano e inglese. La licenza è Apache 2.0, il contesto dichiarato è di 4.096 token e il training copre 120 miliardi di token in tre fasi. Il valore del progetto sta nella scelta di trattare l’italiano come lingua nativa del modello, non come adattamento finale.

DanteLLM-7B

DanteLLM-7B appartiene alla stagione dei modelli italiani basati su fine-tuning. Il paper pubblicato a Lrec-Coling 2024 lo presenta come un lavoro costruito usando dataset già emersi nell’ecosistema italiano, tra cui quelli di Fauno e Camoscio. Resta utile per capire la fase intermedia della ricerca italiana: prima dei modelli nativi più recenti, una parte importante del lavoro passava dall’adattamento di modelli internazionali a dati e compiti italiani.

LLaMAntino-3 ANITA

LLaMAntino-3 ANITA è un adattamento italiano della famiglia LLaMA 3 sviluppato dal gruppo dell’Università di Bari e pubblicato su Scientific Reports il 3 febbraio 2026. Il lavoro presenta LLaMAntino-3-ANITA-8B-Inst-DPO-ITA, modello da 8 miliardi di parametri adattato alla lingua italiana con fine-tuning, QLoRA e Direct Preference Optimization. La sua importanza sta nel consolidare una linea di ricerca italiana sui modelli aperti adattati alla lingua, con attenzione a sicurezza, allineamento e valutazione su benchmark italiani.

Fauno

Fauno resta uno dei primi modelli conversazionali italiani open source. Il paper del 2023 lo presenta come un modello costruito su versioni 7B e 13B di Baize, a loro volta basate su LLaMA, con dataset conversazionali tradotti e generati per l’italiano. Nel 2026 va citato soprattutto come tappa storica: non è un modello industriale maturo, ma ha contribuito a creare dataset, pratiche e confronti nella prima stagione degli llm italiani.

Camoscio

Camoscio è un altro riferimento della prima ondata instruction-tuned italiana. Il paper lo descrive come fine-tuning LoRA di LLaMA 7B su prompt Alpaca tradotti in italiano. Il suo valore resta nella disponibilità di codice, dataset e pesi LoRA per la comunità, mentre i limiti sono quelli tipici dei primi adattamenti: dipendenza da modelli di base internazionali, dataset tradotti e finalità prevalentemente sperimentali.

Cerbero-7B

Cerbero-7B si inserisce nello stesso filone di modelli italiani specializzati tramite fine-tuning e costruzione di corpora conversazionali. Il paper del 2023 lo presenta come un modello che usa Mistral 7B e lavora su dataset italiani generati e filtrati, con valutazioni su benchmark come Squad-it ed Evalita. Nel quadro aggiornato al 2026 è soprattutto una tappa della ricerca su dataset italiani di migliore qualità.

GePpeTto

GePpeTto resta il riferimento storico per la generazione testuale in italiano. Il paper del 2020 lo definisce il primo modello generativo per l’italiano basato su architettura GPT-2. Con 117 milioni di parametri, addestrato su ItWac e Wikipedia italiana secondo la ricostruzione del paper DanteLLM, oggi è molto lontano dalle dimensioni dei modelli più recenti, ma conserva un valore storico: ha anticipato la necessità di modelli generativi non centrati sull’inglese.

DIABLO 354M

DIABLO 354M è un modello causale per l’italiano pubblicato su Hugging Face da Osiria. La model card lo descrive come un modello GPT-like da circa 354 milioni di parametri, ottenuto modificando l’architettura XGLM e pensato come foundation model di base per generazione e successivi fine-tuning. È un progetto di ricerca nella fascia dei modelli piccoli, più utile per sperimentazione e adattamenti che per impieghi enterprise critici.

Il panorama mostra una stratificazione più netta rispetto alla prima fase: modelli pionieristici di ricerca, fine-tuning italiani di basi internazionali, modelli nativi o quasi nativi, small language model riproducibili e stack enterprise orientati a sovranità, compliance e deployment privato.

La tabella dei modelli llm italiani: chi sono, come sono, chi li fa

Modello	Soggetto	Tipo	Dati tecnici rilevanti	Posizionamento
ChatMinerva	Sapienza Nlp, Babelscape	Assistente multimodale basato su Minerva	Testo, immagini, documenti, pagine scansionate, web in tempo reale	Ricerca, analisi documentale, assistente italiano
Minerva	Sapienza Nlp, Fair, Cineca, Babelscape	Famiglia llm addestrata da zero	Minerva-7B-instruct: 7B parametri, quasi 2,5 trilioni di token	Ricerca, open models, base di ChatMinerva
Italia-10B	Domyn, già iGenius	Modello fondazionale enterprise	Evoluzione del percorso Italia-9B; focus su settori regolamentati	AI sovrana, imprese, PA e finanza
Domyn Small	Domyn	Open-weight reasoning model	10B parametri, licenza Mit, 32K token nativi estendibili a 131K	Deployment enterprise leggero, on-premise e fine-tuning
Colosseum-355B	Domyn e Nvidia	Large language model enterprise	355B parametri, indicato come microservizio Nvidia Nim	Ambienti regolamentati e casi mission-critical
Domyn-Large	Domyn	Reasoning model enterprise	Circa 260-263B parametri; Text-to-SQL, Text-to-Cypher, knowledge graph	AI sovrana europea per settori regolamentati
Velvet	Almawave	Famiglia llm nativa italiana	2B, Speech 2B, 14B, 25B; 14B con 128K token; 25B per 24 lingue UE	Enterprise, PA, sanità, giustizia, documenti complessi
FastwebMIIA	Fastweb	LLM nazionale enterprise	7B su corpus prevalentemente italiano; infrastrutture localizzate in Italia	Aziende, PA, private cloud e on-premise
Vitruvian	Asc27	Famiglia di modelli italiani	Scientist-14B, Explainer-14B, Smart-12B nei benchmark pubblici	Reasoning, spiegazione, domini specialistici
Zagreus	MII-LLM, Seeweb	Small language model addestrato da zero	0,4B; circa 1 trilione di token; varianti inglese + lingue romanze	Open source, edge AI, riproducibilità
Nesso	MII-LLM	Famiglia post-trained su Zagreus	Circa 0,4B; varianti instruct, agentic e open source	Edge deployment, agenti piccoli, output strutturati
Maestrale	MII-LLM	Fine-tuning italiano di Mistral 7B	7B; italiano, tool use via JSON e API	Open source, integrazione e sperimentazione
Dante-2B	Sviluppatore indipendente	Modello addestrato da zero	2,1B; tokenizer 64K; 120B token; Apache 2.0	Italiano nativo, hardware contenuto, ricerca aperta
DanteLLM-7B	RSTLess Research	Fine-tuning italiano	7B; usa dataset Fauno, Camoscio e altri	Ricerca e benchmark italiani
LLaMAntino-3 ANITA	Università di Bari	Adattamento italiano di LLaMA 3	8B instruct DPO; pubblicato su Scientific Reports nel 2026	Interazione naturale in italiano, ricerca aperta
Fauno	RSTLess Research Group, Sapienza	Modello conversazionale italiano	Basato su Baize/LLaMA 7B e 13B; dataset sintetici italiani	Conversazionale open source e sperimentale
Camoscio	Ricerca open source	Instruction tuning italiano	LoRA su LLaMA 7B con Alpaca tradotto in italiano	Ricerca, instruction tuning, non produzione
Cerbero-7B	Comunità ricerca	Fine-tuning italiano	Mistral 7B con corpus conversazionale italiano generato e filtrato	Ricerca su dataset e qa in italiano
GePpeTto	Università di Pisa	Modello generativo italiano basato su GPT-2	117 milioni di parametri; ItWac e Wikipedia italiana	Riferimento storico per generazione in italiano
DIABLO 354M	Osiria	Causal language model italiano	354M parametri; architettura GPT-like/XGLM modificata	Ricerca e generazione di base in italiano
EngGPT 2 / EngGPT2-16B-A3B	Engineering	Modello llm MoE addestrato da zero	16 miliardi di parametri totali, circa 3 miliardi attivi per inferenza, addestrato da zero su 2,5 trilioni di token	Private GenAI, PA, imprese, architetture sovrane, integrazione multi-model

Llm italiani: dalla lingua alla sovranità operativa

Il filo comune è la lingua italiana, ma il valore industriale non dipende solo dalla qualità linguistica. Per imprese e amministrazioni pesano almeno quattro fattori: localizzazione dell’infrastruttura, controllo sui dati di training, licenza, possibilità di deployment in ambienti privati o segregati. FastwebMIIA insiste esplicitamente su infrastrutture localizzate in Italia e private cloud; Almawave posiziona Velvet su settori verticali e documenti complessi; iGenius e Minerva puntano sull’apertura e sulla costruzione di modelli italiani nativi o fortemente italian-centric.

Questa differenza è decisiva per i casi d’uso reali. Un modello che parla bene italiano può bastare per assistenza interna, sintesi o generazione di testi. Per sanità, giustizia, finanza, difesa, pubblica amministrazione o industria regolata servono garanzie più robuste: tracciabilità dei dati, audit, controlli su privacy e copyright, isolamento dell’infrastruttura, governance dei prompt e monitoraggio delle risposte.

ChatMinerva si inserisce proprio in questo passaggio. La sua funzione non è competere frontalmente con i grandi modelli globali sul numero di parametri, ma dimostrare che un modello italiano può diventare un assistente capace di leggere documenti, cercare online e gestire input multimodali. È un salto di prodotto, non solo di laboratorio.

Benchmark italiani, perché servono metriche native

La valutazione resta uno dei punti più delicati. Molti benchmark internazionali sono nati in inglese e poi tradotti, con il rischio di misurare male competenze linguistiche, riferimenti culturali e ambiguità proprie dell’italiano. Il progetto Evalita-LLM, descritto nel paper pubblicato nel 2025, nasce proprio per valutare gli llm su compiti italiani nativi, includendo sia task multiple choice sia task generativi e usando più prompt per ridurre la sensibilità dei risultati alla formulazione della domanda.

Il lavoro sulla leaderboard Evalita-LLM segnala anche un dato metodologico importante: i risultati few-shot tendono a superare quelli zero-shot per molti modelli, mentre dimensione e aggiornamento del modello restano variabili rilevanti. Il benchmark copre dieci task nativi italiani e mette a disposizione una classifica pubblica su Hugging Face, utile per confrontare modelli aperti su basi più trasparenti,

Per il mercato significa una cosa semplice: dichiarare che un modello “parla italiano” non basta. Bisogna capire su quali compiti, con quali prompt, in quale contesto e con quali limiti. La qualità percepita in una chat dimostrativa può non coincidere con affidabilità, robustezza e costanza in processi aziendali ripetitivi.

Tanti modelli, pochi vincitori generalisti

La corsa italiana agli llm non produrrà necessariamente un campione generalista capace di sfidare i grandi player statunitensi, cinesi o francesi su scala globale. Il vantaggio più realistico è in modelli e assistenti specializzati: lingua italiana, documenti amministrativi, corpus regolati, sanità, diritto, customer service, compliance, istruzione, industria e servizi finanziari.

La presenza di modelli piccoli come Zagreus, Nesso e Dante-2B mostra anche un’altra direzione: non tutto deve passare da modelli sempre più grandi. Per edge AI, applicazioni locali, sperimentazione e fine-tuning controllato, modelli da centinaia di milioni o pochi miliardi di parametri possono avere senso economico e tecnico, soprattutto quando il costo di inferenza pesa più della pura capacità generativa.

Il rischio opposto è la frammentazione. Troppi modelli annunciati come “italiani” senza chiarezza su dati, licenze, benchmark e maturità produttiva possono creare confusione tra imprese e amministrazioni. La distinzione tra modello addestrato da zero, fine-tuning, wrapper applicativo e assistente multimodale deve diventare parte della valutazione di acquisto.

Obiettivo ora: continuità, aggiornamento, qualità dei dati e adozione. Un llm italiano può avere senso se riduce dipendenze, migliora l’efficienza sulla lingua, offre maggiore controllo sui dati e risponde a vincoli regolatori o settoriali che i modelli globali trattano in modo generico. Senza questi elementi, il “made in Italy” resta un’etichetta debole.

@RIPRODUZIONE RISERVATA

Alessandro Longo

Direttore AI4business.it e Agenda Digitale

Partecipa alla community

0 Commenti

Più recenti

Più votati

Inline Feedback

Vedi tutti i commenti

Canali

Intelligenza Artificiale

Chatminerva, Italia-10B e gli altri: la mappa degli LLM italiani

ChatMinerva della Sapienza

La mappa degli llm italiani

Minerva

Famiglia Domyn

Velvet di Almawave

FastwebMIIA di Fastweb + Vodafone

Vitruvian di Asc27

Engineering EngGPT 2, il modello industriale MoE

Zagreus

Nesso

Maestrale

Dante-2B

DanteLLM-7B

LLaMAntino-3 ANITA

Fauno

Camoscio

Cerbero-7B

GePpeTto

DIABLO 354M

La tabella dei modelli llm italiani: chi sono, come sono, chi li fa

Llm italiani: dalla lingua alla sovranità operativa

Benchmark italiani, perché servono metriche native

Tanti modelli, pochi vincitori generalisti

Alessandro Longo

Direttore AI4business.it e Agenda Digitale

Leggi anche:

Partecipa alla community

Articoli correlati

FastwebMIIA: nasce il LLM “sovrano” per la sicurezza dei dati

Anthropic apre a Milano: perché l’Italia entra nella mappa europea di Claude

Codice Rss

Codice Rss