large language model

Chatminerva, Italia-10B e gli altri: la mappa degli LLM italiani



Indirizzo copiato

Dalla Sapienza a Cineca, da Domyn (ex iGenius) ad Almawave e Fastweb c’è un impegno crescente di soggetti pubblici e privati italiani per fare llm. Facciamo un bilancio per capire dove siamo e dove vogliamo andare, posto che il tema non è competere con la Silicon Valley

Pubblicato il 8 giu 2026

Alessandro Longo

Direttore AI4business.it e Agenda Digitale



llm italiani
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Arriva ChatMinerva, evoluzione di uno dei più discussi llm italiani, dall’università la Sapienza di Roma, e rilancia l’attenzione su quello che l’Italia sta facendo in questo campo.

Sugli llm, ricordiamolo subito, siamo agli ultimi posti in Europa in tutte le classifiche, “il primo llm è il francese Mistral, che però è centesimo al mondo, per potenza. Qui dominano Usa e Cina. L’Ue è in forte ritardo e l’Italia è ancora più indietro”, ci dice Giovanni Miragliotta, direttore osservatorio artificial intelligence del Politecnico di Milano.

L’Italia però vuole esserci e sta cercando la propria strada puntando in diverse direzioni. Quello della ricerca accademica e dell’impegno industriale al tempo stesso, anche alla ricerca di nicchie utili da esplorare. Del resto la Strategia italiana AI 2024-2026 (che per altro ora andrebbe aggiornata per i prossimi anni) parla di sviluppo di sistemi di IA specifici per il contesto italiano e, nelle ricostruzioni sulla strategia, di modelli fondazionali multimodali nazionali.

ChatMinerva della Sapienza

ChatMinerva, presentato a inizi giugno, nasce dal lavoro del gruppo Sapienza Nlp guidato da Roberto Navigli, in collaborazione con lo spin-off Babelscape, e usa la potenza di calcolo del supercomputer Leonardo di Cineca per i processi di training e fine-tuning

Minerva era già uno dei progetti più noti nel panorama nazionale: una famiglia di modelli addestrati da zero con forte presenza di dati italiani e inglesi. ChatMinerva aggiunge un livello applicativo: accesso web tramite un sistema di web Rag, finestra di contesto estesa a 32.000 token, gestione di documenti lunghi, comprensione multimodale e componenti di sicurezza per filtrare input e risposte indesiderate o sensibili.

È l’opportunità per fare un quadro di ciò che si muove in Italia in ambito llm.

La mappa degli llm italiani

È l’opportunità per fare un quadro di ciò che si muove in Italia in ambito llm.

Minerva

Minerva è la famiglia di modelli su cui si innesta ChatMinerva. La model card di Minerva-7B-instruct-v1.0 descrive un modello da 7 miliardi di parametri addestrato su quasi 2,5 trilioni di token, con 1,14 trilioni in italiano, 1,14 trilioni in inglese e 200 miliardi di codice. Si distingue per un’impostazione “italian-centric” fin dalla fase di pre-addestramento, invece di limitarsi ad adattare un modello nato per l’inglese.

Navigli annuncia un modello evoluto a 20miliardi di parametri ad autunno 2026. Va detto che è circa due ordini di grandezza inferiore rispetto agli attuali Gpt, Claude e simili (secondo stime di Semianalysis). L’abbiamo provato (è gratis, basta registrarsi) e, come anche confermano Antonio Cisternino (ricercatore all’università di Pisa) e Antonio Chella (ordinario di robotica all’università di Palermo), i risultati non sono comparabili a quelli di un llm “americano” o cinese (nemmeno rispetto a quelli “mini” e open), né per precisione né per approfondimento. ChatMinerva è apprezzabile come sforzo accademico, con poco budget, no per i risultati finali in sé.

Famiglia Domyn

Domyn ha molti modelli.

Italia-10B è l’evoluzione del percorso avviato da iGenius, oggi Domyn, con il precedente Italia-9B. Parte di una linea di modelli enterprise e sovrani orientati a finanza, industria, PA e contesti ad alta compliance.

Domyn Small è il modello open-weight da 10 miliardi di parametri con cui Domyn punta a coprire applicazioni enterprise in ambienti con vincoli di costo, latenza e risorse. La scheda ufficiale lo presenta con contesto nativo da 32 mila token, estendibile a 131 mila, licenza Mit e supporto a oltre 50 lingue, con enfasi su italiano, francese, tedesco, spagnolo e portoghese. È un modello rilevante perché aggiorna la traiettoria italiana verso llm più leggeri, adattabili e distribuibili anche fuori dai grandi datacenter centralizzati.

Colosseum-355B è il modello che Domyn indica come llm progettato per ambienti altamente regolamentati e disponibile come microservizio Nvidia Nim. Va distinto dal supercomputer Colosseum, infrastruttura AI sviluppata con Nvidia e pensata per training e deployment di modelli molto grandi. Mira così a sistemi di scala molto più alta, legati a sovranità dell’infrastruttura, controllo dei dati e casi d’uso mission-critical.

Domyn-Large è il modello di reasoning che Domyn presenta nel 2026 come evoluzione della propria collaborazione con Nvidia per l’AI sovrana europea. La società lo descrive come un modello da circa 260-263 miliardi di parametri, orientato a compiti enterprise strutturati come Text-to-SQL, Text-to-Cypher, estrazione di knowledge graph e classificazione di sicurezza.

Velvet di Almawave

Velvet, sviluppato da Almawave, è una famiglia che ora comprende Velvet 2B, Velvet Speech 2B, Velvet 14B e Velvet 25B. Almawave descrive Velvet come famiglia di llm nativamente sviluppati in Italia su architettura proprietaria, senza ricorso a modelli preesistenti. Velvet 14B opera in italiano e in altre cinque lingue europee, con vocabolario da 127 mila parole e finestra di contesto da 128 mila token; Velvet 25B è indicato per testi lunghi e complessi e per le 24 lingue ufficiali dell’Unione europea.

FastwebMIIA di Fastweb + Vodafone

FastwebMIIA resta uno dei modelli italiani più rilevanti per imprese e pubblica amministrazione. Fastweb lo presenta come un Large Language Model nazionale addestrato in Italia su un corpus eterogeneo prevalentemente in lingua italiana, con infrastrutture segregate, localizzate e gestite in Italia. Il modello è proposto per deployment on-premise o in private cloud, con licenze differenziate tra uso non commerciale e commerciale.

Vitruvian di Asc27

Vitruvian va aggiornato come famiglia di modelli Asc27, non come singolo Vitruvian-1 statico. La pagina benchmark pubblica cita modelli come Vitruvian_Scientist-14B, Vitruvian_Explainer-14B e Vitruvian_Smart-12B, con valutazioni su MMLU-Ita e altri test linguistici italiani. Il progetto si colloca nell’area dei modelli orientati a reasoning, spiegazione e domini specialistici.

Engineering EngGPT 2, il modello industriale MoE

Notevole EngGPT 2 di Engineering, soprattutto dopo il lancio dell’architettura IS-IA, Italy’s Sovereign Intelligence Architecture. Engineering presenta EngGPT2-16B-A3B come modello mixture of experts addestrato da zero, con 16 miliardi di parametri totali e circa 3 miliardi attivi per inferenza, pensato per efficienza computazionale e integrazione in architetture private e governabili.

La scheda Hugging Face e i materiali aziendali lo posizionano come modello aperto nei pesi ma con licenza non commerciale, addestrato su 2,5 trilioni di token. Il target è vicino a quello di Fastweb e Almawave per pubblico, ma diverso per architettura: PA e imprese che vogliono Private GenAI, controllo del modello, integrazione con altri modelli general-purpose e auditabilità.

Zagreus

Zagreus è la famiglia di small language model fondazionali della comunità MII-LLM, ideata e sponsorizzata dallo storico provider italiano Seeweb.

Il progetto comprende quattro modelli bilingui addestrati da zero su circa un trilione di token open source, che accoppiano l’inglese con italiano, spagnolo, portoghese e francese. La versione italiana, costruita su architettura Llama-3.2 modificata da circa 400 milioni di parametri e infrastruttura Seeweb, è significativa perché punta su apertura, riproducibilità e deployment edge.

Nesso

Nesso è la famiglia post-trained costruita sopra Zagreus. MII-LLM la presenta come insieme di small language model bilingui italiano-inglese da circa 400 milioni di parametri, ottimizzati per edge deployment e disponibili in varianti instruct, agentic e open source riproducibile. Rispetto ai modelli generalisti, Nesso mostra una strada diversa: modelli piccoli, specializzati, trasparenti e più economici da distribuire, utili quando l’obiettivo è integrare capacità linguistiche italiane in applicazioni circoscritte.

Maestrale

Maestrale, sempre nell’ecosistema MII-LLM, è un modello open source da 7 miliardi di parametri fine-tuned per produrre italiano di qualità, con capacità di integrazione via strumenti, JSON e chiamate API. Resta diverso dai modelli addestrati da zero: nasce da una base internazionale e viene adattato all’italiano. Questa distinzione è importante per valutare controllo sulla catena del modello, licenze, dati di origine e adeguatezza a contesti industriali sensibili.

Dante-2B

Dante-2B è uno dei progetti indipendenti più interessanti tra gli llm italiani del 2026. La model card lo descrive come modello bilingue italiano-inglese da 2,1 miliardi di parametri, addestrato interamente da zero da un singolo sviluppatore su due Nvidia H200 NVL, con tokenizer BPE da 64 mila token progettato per italiano e inglese. La licenza è Apache 2.0, il contesto dichiarato è di 4.096 token e il training copre 120 miliardi di token in tre fasi. Il valore del progetto sta nella scelta di trattare l’italiano come lingua nativa del modello, non come adattamento finale.

DanteLLM-7B

DanteLLM-7B appartiene alla stagione dei modelli italiani basati su fine-tuning. Il paper pubblicato a Lrec-Coling 2024 lo presenta come un lavoro costruito usando dataset già emersi nell’ecosistema italiano, tra cui quelli di Fauno e Camoscio. Resta utile per capire la fase intermedia della ricerca italiana: prima dei modelli nativi più recenti, una parte importante del lavoro passava dall’adattamento di modelli internazionali a dati e compiti italiani.

LLaMAntino-3 ANITA

LLaMAntino-3 ANITA è un adattamento italiano della famiglia LLaMA 3 sviluppato dal gruppo dell’Università di Bari e pubblicato su Scientific Reports il 3 febbraio 2026. Il lavoro presenta LLaMAntino-3-ANITA-8B-Inst-DPO-ITA, modello da 8 miliardi di parametri adattato alla lingua italiana con fine-tuning, QLoRA e Direct Preference Optimization. La sua importanza sta nel consolidare una linea di ricerca italiana sui modelli aperti adattati alla lingua, con attenzione a sicurezza, allineamento e valutazione su benchmark italiani.

Fauno

Fauno resta uno dei primi modelli conversazionali italiani open source. Il paper del 2023 lo presenta come un modello costruito su versioni 7B e 13B di Baize, a loro volta basate su LLaMA, con dataset conversazionali tradotti e generati per l’italiano. Nel 2026 va citato soprattutto come tappa storica: non è un modello industriale maturo, ma ha contribuito a creare dataset, pratiche e confronti nella prima stagione degli llm italiani.

Camoscio

Camoscio è un altro riferimento della prima ondata instruction-tuned italiana. Il paper lo descrive come fine-tuning LoRA di LLaMA 7B su prompt Alpaca tradotti in italiano. Il suo valore resta nella disponibilità di codice, dataset e pesi LoRA per la comunità, mentre i limiti sono quelli tipici dei primi adattamenti: dipendenza da modelli di base internazionali, dataset tradotti e finalità prevalentemente sperimentali.

Cerbero-7B

Cerbero-7B si inserisce nello stesso filone di modelli italiani specializzati tramite fine-tuning e costruzione di corpora conversazionali. Il paper del 2023 lo presenta come un modello che usa Mistral 7B e lavora su dataset italiani generati e filtrati, con valutazioni su benchmark come Squad-it ed Evalita. Nel quadro aggiornato al 2026 è soprattutto una tappa della ricerca su dataset italiani di migliore qualità.

GePpeTto

GePpeTto resta il riferimento storico per la generazione testuale in italiano. Il paper del 2020 lo definisce il primo modello generativo per l’italiano basato su architettura GPT-2. Con 117 milioni di parametri, addestrato su ItWac e Wikipedia italiana secondo la ricostruzione del paper DanteLLM, oggi è molto lontano dalle dimensioni dei modelli più recenti, ma conserva un valore storico: ha anticipato la necessità di modelli generativi non centrati sull’inglese.

DIABLO 354M

DIABLO 354M è un modello causale per l’italiano pubblicato su Hugging Face da Osiria. La model card lo descrive come un modello GPT-like da circa 354 milioni di parametri, ottenuto modificando l’architettura XGLM e pensato come foundation model di base per generazione e successivi fine-tuning. È un progetto di ricerca nella fascia dei modelli piccoli, più utile per sperimentazione e adattamenti che per impieghi enterprise critici.

Il panorama mostra una stratificazione più netta rispetto alla prima fase: modelli pionieristici di ricerca, fine-tuning italiani di basi internazionali, modelli nativi o quasi nativi, small language model riproducibili e stack enterprise orientati a sovranità, compliance e deployment privato.

La tabella dei modelli llm italiani: chi sono, come sono, chi li fa

ModelloSoggettoTipoDati tecnici rilevantiPosizionamento
ChatMinervaSapienza Nlp, BabelscapeAssistente multimodale basato su MinervaTesto, immagini, documenti, pagine scansionate, web in tempo realeRicerca, analisi documentale, assistente italiano
MinervaSapienza Nlp, Fair, Cineca, BabelscapeFamiglia llm addestrata da zeroMinerva-7B-instruct: 7B parametri, quasi 2,5 trilioni di tokenRicerca, open models, base di ChatMinerva
Italia-10BDomyn, già iGeniusModello fondazionale enterpriseEvoluzione del percorso Italia-9B; focus su settori regolamentatiAI sovrana, imprese, PA e finanza
Domyn SmallDomynOpen-weight reasoning model10B parametri, licenza Mit, 32K token nativi estendibili a 131KDeployment enterprise leggero, on-premise e fine-tuning
Colosseum-355BDomyn e NvidiaLarge language model enterprise355B parametri, indicato come microservizio Nvidia NimAmbienti regolamentati e casi mission-critical
Domyn-LargeDomynReasoning model enterpriseCirca 260-263B parametri; Text-to-SQL, Text-to-Cypher, knowledge graphAI sovrana europea per settori regolamentati
VelvetAlmawaveFamiglia llm nativa italiana2B, Speech 2B, 14B, 25B; 14B con 128K token; 25B per 24 lingue UEEnterprise, PA, sanità, giustizia, documenti complessi
FastwebMIIAFastwebLLM nazionale enterprise7B su corpus prevalentemente italiano; infrastrutture localizzate in ItaliaAziende, PA, private cloud e on-premise
VitruvianAsc27Famiglia di modelli italianiScientist-14B, Explainer-14B, Smart-12B nei benchmark pubbliciReasoning, spiegazione, domini specialistici
ZagreusMII-LLM, SeewebSmall language model addestrato da zero0,4B; circa 1 trilione di token; varianti inglese + lingue romanzeOpen source, edge AI, riproducibilità
NessoMII-LLMFamiglia post-trained su ZagreusCirca 0,4B; varianti instruct, agentic e open sourceEdge deployment, agenti piccoli, output strutturati
MaestraleMII-LLMFine-tuning italiano di Mistral 7B7B; italiano, tool use via JSON e APIOpen source, integrazione e sperimentazione
Dante-2BSviluppatore indipendenteModello addestrato da zero2,1B; tokenizer 64K; 120B token; Apache 2.0Italiano nativo, hardware contenuto, ricerca aperta
DanteLLM-7BRSTLess ResearchFine-tuning italiano7B; usa dataset Fauno, Camoscio e altriRicerca e benchmark italiani
LLaMAntino-3 ANITAUniversità di BariAdattamento italiano di LLaMA 38B instruct DPO; pubblicato su Scientific Reports nel 2026Interazione naturale in italiano, ricerca aperta
FaunoRSTLess Research Group, SapienzaModello conversazionale italianoBasato su Baize/LLaMA 7B e 13B; dataset sintetici italianiConversazionale open source e sperimentale
CamoscioRicerca open sourceInstruction tuning italianoLoRA su LLaMA 7B con Alpaca tradotto in italianoRicerca, instruction tuning, non produzione
Cerbero-7BComunità ricercaFine-tuning italianoMistral 7B con corpus conversazionale italiano generato e filtratoRicerca su dataset e qa in italiano
GePpeTtoUniversità di PisaModello generativo italiano basato su GPT-2117 milioni di parametri; ItWac e Wikipedia italianaRiferimento storico per generazione in italiano
DIABLO 354MOsiriaCausal language model italiano354M parametri; architettura GPT-like/XGLM modificataRicerca e generazione di base in italiano

EngGPT 2 / EngGPT2-16B-A3B

Engineering
Modello llm MoE addestrato da zero16 miliardi di parametri totali, circa 3 miliardi attivi per inferenza, addestrato da zero su 2,5 trilioni di tokenPrivate GenAI, PA, imprese, architetture sovrane, integrazione multi-model

Llm italiani: dalla lingua alla sovranità operativa

Il filo comune è la lingua italiana, ma il valore industriale non dipende solo dalla qualità linguistica. Per imprese e amministrazioni pesano almeno quattro fattori: localizzazione dell’infrastruttura, controllo sui dati di training, licenza, possibilità di deployment in ambienti privati o segregati. FastwebMIIA insiste esplicitamente su infrastrutture localizzate in Italia e private cloud; Almawave posiziona Velvet su settori verticali e documenti complessi; iGenius e Minerva puntano sull’apertura e sulla costruzione di modelli italiani nativi o fortemente italian-centric.

Questa differenza è decisiva per i casi d’uso reali. Un modello che parla bene italiano può bastare per assistenza interna, sintesi o generazione di testi. Per sanità, giustizia, finanza, difesa, pubblica amministrazione o industria regolata servono garanzie più robuste: tracciabilità dei dati, audit, controlli su privacy e copyright, isolamento dell’infrastruttura, governance dei prompt e monitoraggio delle risposte.

ChatMinerva si inserisce proprio in questo passaggio. La sua funzione non è competere frontalmente con i grandi modelli globali sul numero di parametri, ma dimostrare che un modello italiano può diventare un assistente capace di leggere documenti, cercare online e gestire input multimodali. È un salto di prodotto, non solo di laboratorio.

Benchmark italiani, perché servono metriche native

La valutazione resta uno dei punti più delicati. Molti benchmark internazionali sono nati in inglese e poi tradotti, con il rischio di misurare male competenze linguistiche, riferimenti culturali e ambiguità proprie dell’italiano. Il progetto Evalita-LLM, descritto nel paper pubblicato nel 2025, nasce proprio per valutare gli llm su compiti italiani nativi, includendo sia task multiple choice sia task generativi e usando più prompt per ridurre la sensibilità dei risultati alla formulazione della domanda.

Il lavoro sulla leaderboard Evalita-LLM segnala anche un dato metodologico importante: i risultati few-shot tendono a superare quelli zero-shot per molti modelli, mentre dimensione e aggiornamento del modello restano variabili rilevanti. Il benchmark copre dieci task nativi italiani e mette a disposizione una classifica pubblica su Hugging Face, utile per confrontare modelli aperti su basi più trasparenti,

Per il mercato significa una cosa semplice: dichiarare che un modello “parla italiano” non basta. Bisogna capire su quali compiti, con quali prompt, in quale contesto e con quali limiti. La qualità percepita in una chat dimostrativa può non coincidere con affidabilità, robustezza e costanza in processi aziendali ripetitivi.

Tanti modelli, pochi vincitori generalisti

La corsa italiana agli llm non produrrà necessariamente un campione generalista capace di sfidare i grandi player statunitensi, cinesi o francesi su scala globale. Il vantaggio più realistico è in modelli e assistenti specializzati: lingua italiana, documenti amministrativi, corpus regolati, sanità, diritto, customer service, compliance, istruzione, industria e servizi finanziari.

La presenza di modelli piccoli come Zagreus, Nesso e Dante-2B mostra anche un’altra direzione: non tutto deve passare da modelli sempre più grandi. Per edge AI, applicazioni locali, sperimentazione e fine-tuning controllato, modelli da centinaia di milioni o pochi miliardi di parametri possono avere senso economico e tecnico, soprattutto quando il costo di inferenza pesa più della pura capacità generativa.

Il rischio opposto è la frammentazione. Troppi modelli annunciati come “italiani” senza chiarezza su dati, licenze, benchmark e maturità produttiva possono creare confusione tra imprese e amministrazioni. La distinzione tra modello addestrato da zero, fine-tuning, wrapper applicativo e assistente multimodale deve diventare parte della valutazione di acquisto.

Obiettivo ora: continuità, aggiornamento, qualità dei dati e adozione. Un llm italiano può avere senso se riduce dipendenze, migliora l’efficienza sulla lingua, offre maggiore controllo sui dati e risponde a vincoli regolatori o settoriali che i modelli globali trattano in modo generico. Senza questi elementi, il “made in Italy” resta un’etichetta debole.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x