L’ingresso dell’intelligenza artificiale nelle imprese è avvenuto con una dinamica sorprendentemente uniforme: un unico modello come punto d’appoggio, un fornitore principale, un flusso di integrazione semplificato. L’obiettivo iniziale era mettere a terra una prova di valore, ridurre l’incertezza, evitare complessità. Scelta comprensibile in un contesto in cui i modelli sembravano ancora comparabili e l’urgenza era dimostrare che l’AI funzionava davvero.
Questa impostazione, però, ha mostrato presto i suoi limiti. Le imprese hanno iniziato a scoprire che un modello eccellente in una funzione poteva essere mediocre in un’altra. La crescita del mercato ha reso la specializzazione un tratto distintivo: GPT-5.1 ha portato capacità di reasoning avanzate; Gemini 3.0 ha esteso la multimodalità e l’esecuzione; Claude Opus 4.5 ha introdotto robustezza in scenari complessi; Llama 3.1 e i modelli open-weight hanno aggiunto trasparenza e autonomia; gli small model hanno cambiato il rapporto tra AI e edge computing. Una singola tecnologia non era più sufficiente per coprire l’eterogeneità dei processi aziendali.
La diversificazione non è arrivata come un’innovazione, ma come una conseguenza naturale dell’ampliamento della domanda: più casi d’uso, più vincoli normativi, più variabilità dei dati, più attenzione ai costi. Il passaggio dal modello unico al portafoglio è diventato un modo per gestire la complessità crescente, non per crearne di nuova.
Indice degli argomenti:
Costi, rischio e latenza come motori del cambiamento
La dimensione economica rappresenta uno dei punti di svolta più evidenti. I modelli linguistici non hanno costi equivalenti: differiscono per prezzo al token, per latenza, per capacità di scalare sotto carico. Le imprese si sono accorte che distribuzioni intelligenti dei task riducono la spesa in modo rilevante.
Un esempio concreto: la classificazione di grandi volumi di contenuti può essere affidata a Llama o Mistral a costi irrisori, mentre la generazione strategica di documenti o analisi può rimanere nelle mani di GPT-5.1 o Opus 4.5. Una divisione del lavoro che replica ciò che da anni avviene con database e microservizi: non si usa lo strumento più potente per ogni operazione, ma quello più adatto.
Il rischio è il secondo fattore strutturale. Un unico modello implica una dipendenza totale dal fornitore, dai suoi cambi di pricing, dalla sua disponibilità, dalle sue scelte di roadmap. Aziende che operano in settori regolamentati hanno scoperto che affidarsi a un solo LLM crea un punto di vulnerabilità che non è tecnicamente accettabile.
La continuità operativa richiede alternative reali: modelli di riserva, fallback immediati, pipeline riconfigurabili. Gli incidenti di latenza verificatisi nel 2024 su vari provider hanno mostrato in modo chiaro la fragilità del modello centralizzato.
La latenza, terzo motore del cambiamento, si manifesta soprattutto nei processi operativi: manutenzione, logistica, supply chain, customer care. Qui il tempo di risposta non è un parametro accessorio ma una condizione di funzionamento.
I foundation model, pur eccellenti in reasoning e generazione, non possono garantire latenze costanti sotto i 100 millisecondi. Gli small model, al contrario, eseguiti in edge o su sistemi on-prem, permettono risposte immediate anche in ambienti offline o con connettività limitata.
La loro integrazione nel portafoglio crea nuove possibilità: un modello locale gestisce l’input, il foundation model fornisce interpretazione e valore cognitivo, mentre l’orchestrazione decide quando utilizzare l’uno o l’altro.

L’effetto AI Act sulla diversificazione
La normativa europea ha accelerato e amplificato questa evoluzione. L’AI Act introduce requisiti stringenti di trasparenza, auditabilità, gestione del rischio, documentazione tecnica. Il modello unico, spesso closed-source, risponde solo parzialmente a queste esigenze. Le imprese si sono trovate nella condizione di integrare modelli open-weight per ottenere visibilità sui comportamenti, tracciare ogni fase della pipeline e controllare i dati utilizzati nelle inferenze.
La combinazione di foundation model e open-weight è diventata una strategia di equilibrio: i primi garantiscono capacità elevata e affidabilità nelle attività complesse, i secondi offrono controllo, audit trail e capacità di isolamento dei rischi. In scenari di alto rischio, come finanza, assicurazioni, sanità o pubblica amministrazione, questa doppia architettura non è più un’opzione, ma una condizione per poter implementare soluzioni AI senza esporsi a rischi normativi o reputazionali.
Un altro impatto dell’AI Act riguarda la necessità di selezionare il modello sulla base del contesto d’uso. Questo obbliga le aziende a definire una tassonomia interna dei modelli: quali possono essere usati per attività ad alto rischio, quali solo per compiti low-stakes, quali richiedono supervisione umana, quali possono operare in autonomia. È una trasformazione che sposta l’AI dall’essere un “servizio” a diventare un vero e proprio componente del sistema di governance aziendale.
Il portafoglio come infrastruttura e non come collezione di modelli
La diversificazione introduce una complessità diversa: non più quella di gestire un solo modello, ma quella di integrare e orchestrare più modelli in un’unica architettura. Questa complessità non è un limite, ma il prezzo necessario per ottenere flessibilità, resilienza e controllo. Le aziende più avanzate stanno costruendo un layer di orchestrazione dedicato, in cui il modello non è il protagonista, bensì un elemento interno a una struttura più ampia.
Il routing diventa una componente centrale. Non è un semplice switch fra modelli, ma un sistema che valuta in tempo reale quale modello utilizzare in base a costo, accuratezza, latenza, livello di rischio, contesto normativo. In alcune implementazioni il routing usa anche modelli intermedi per decidere quale modello finale impiegare, creando livelli di astrazione che avvicinano l’AI più a un sistema operativo che a un algoritmo.
Questa logica sta anche trasformando i ruoli. I team data non lavorano più solo sulla preparazione dei dataset; i team machine learning non si concentrano soltanto sull’addestramento; i team engineering non operano più unicamente sull’integrazione. Nasce la figura del Model Portfolio Manager, una posizione che richiede una combinazione di competenze tecniche, economiche e di governance.
Il suo compito è garantire che il portafoglio sia bilanciato, misurato, documentato e aggiornato in funzione delle esigenze del business.
Come si applica nelle aziende: esempi e flussi reali
La transizione è evidente nei processi operativi. Nel customer service avanzato, ad esempio, un modello small analizza l’input in tempo reale, un modello open-weight estrae i dati rilevanti, un foundation model produce la risposta, un modello di verifica controlla la coerenza. Quattro modelli, una pipeline unica.
Nel mondo finanziario, la due diligence documentale oggi utilizza pipeline ibride: OCR, modelli open-weight per la classificazione, modelli foundation per il reasoning, modelli edge per l’analisi locale di dati sensibili. Questo riduce i passaggi critici e aumenta la conformità regolamentare.
Nella manifattura, i sensori generano dati che richiedono interpretazione immediata: gli small model gestiscono gli input grezzi, identificano anomalie, attivano procedure automatiche. I foundation model vengono chiamati in causa solo quando serve interpretare eventi complessi, generare report o individuare correlazioni nascoste.
Nel retail, le catene con migliaia di punti vendita distribuiti stanno iniziando a eseguire modelli leggeri direttamente in store per riconoscere prodotti, monitorare scaffali, analizzare comportamenti.
I modelli cloud entrano in gioco solo per attività strategiche come previsione della domanda o ottimizzazione del pricing. L’AI diventa così locale, scalabile e più economica.
Le tre strategie di portafoglio più diffuse
La diversificazione si esprime oggi in tre architetture ricorrenti:
1. Dual-track
Una combinazione di foundation model e open-weight. Adatto a imprese che cercano controllo senza rinunciare alla qualità.
2. Tri-lane
Foundation per il reasoning, open-weight per i volumi, small model per l’edge. È il modello scelto dalle aziende che operano sia online sia on-site.
3. Full portfolio
Routing dinamico, orchestrazione centralizzata, metriche unificate. Questa configurazione è tipica delle aziende che stanno costruendo piattaforme interne di AI-as-a-service.
Le priorità del 2026
Le imprese che vogliono evolvere verso una logica multi-modello devono concentrarsi su tre elementi:
– definire benchmark interni per confrontare modelli in modo oggettivo e ripetibile;
– introdurre un sistema di routing capace di gestire carichi reali e criteri multipli;
– standardizzare metriche e protocolli per valutare costi, rischi, accuratezza e carbon intensity.
Lo scenario verso cui si sta muovendo il mercato non è quello di un modello leader, ma di un ecosistema di modelli. La diversificazione dei modelli non rappresenta una complessità aggiuntiva, ma una forma di maturità. È il passaggio da una fase pionieristica dell’AI a una fase industriale, in cui la qualità della strategia dipende dalla capacità di governare, combinare e valutare le tecnologie disponibili.
Le imprese che riusciranno a costruire questo equilibrio non avranno solo modelli migliori, ma un’infrastruttura cognitiva più robusta, adattabile e pronta a sostenere le prossime evoluzioni dell’intelligenza artificiale.







