tecnologia

AI e small-data: come costruire sistemi AI che funzionano

Un buon numero di progetti di automazione aziendale AI-powered fallisce all’ingresso in produzione. Il PoC (Proof of Concept) sembra perfetto, ma quando il sistema incontra la realtà operativa le cose iniziano a diventare complesse. Il problema, quasi sempre, non è il modello o l’architettura scelta, ma la distanza tra i dati usati per l’addestramento e il contesto operativo, ogni giorno differente

Pubblicato il 30 gen 2026

Gioele Fierro

CEO e Founder Promezio Engineering

I big data, quelli veri, restano appannaggio delle grandi piattaforme. Quindi, come possono affrontare la sfida dell’intelligenza artificiale le PMI? La ricerca ha dimostrato che, usando la giusta tecnologia, è possibile costruire sistemi di AI robusti anche con pochi dati.

Indice degli argomenti:

Quando il contesto cambia, il modello si rompe

Ogni sistema di machine learning impara a riconoscere pattern statistici nei dati storici. Quando la distribuzione statistica che il sistema ha studiato non corrisponde più a quella che incontra in produzione, nascono i problemi operativi. È quello che tecnicamente viene chiamato domain shift, il killer silenzioso di molte pipeline AI.

A innescare questa deriva spesso è sufficiente un cambio graduale nel mix dei clienti, una nuova dinamica competitiva sul mercato, una variazione nei comportamenti d’acquisto.

Un’azienda che vende online può vedere il proprio modello di previsione della domanda deteriorarsi semplicemente perché la base clienti si è spostata verso una fascia d’età diversa, con abitudini di acquisto differenti.

Un sistema di credit scoring può perdere accuratezza quando le condizioni economiche generali cambiano e i pattern di rischio si modificano. Il modello continua a lavorare, ma le sue previsioni perdono progressivamente aderenza alla realtà. In alcuni casi il degrado è abbastanza lento da passare inosservato per mesi, fino a quando qualcuno si accorge che i numeri iniziano a essere molto distanti da quelli desiderati.

Il monitoraggio della drift distribution nei processi in produzione è quindi un requisito fondamentale, perché chi gestisce un sistema AI deve sapere in ogni momento quanto la distribuzione dei dati in ingresso si sta allontanando da quella su cui il modello è stato addestrato. Esistono metriche specifiche per questo scopo: quando lo scostamento supera una soglia critica, è il momento di intervenire.

Avere a disposizione più dati è uno “scudo” che può essere utile a difendersi da questi shift, ma in molti contesti recuperare una quantità elevata di dati puliti e ben etichettati è una strada impercorribile, per motivi economici o anche per motivazioni pragmatiche di scarsa reperibilità. In queste circostanze bisogna capire come migliorare l’addestramento del modello facendo comunque data saving.

Esistono varie opzioni a questo riguardo, che permettono di incrementare la quantità degli esempi a disposizione per l’AI o di migliorare le sue capacità di generalizzazione.

I dati sintetici

Quando i dati sono pochi, una leva potente è la data augmentation: generare variazioni sintetiche delle osservazioni reali per ampliare artificialmente il dataset di training. Non si tratta di inventare dati dal nulla, ma di creare versioni modificate di quelli esistenti che rispettino i vincoli del dominio.

Tra le tecniche più efficaci c’è MixUp, un approccio che crea nuovi esempi interpolando coppie di osservazioni reali. Se ho due transazioni con caratteristiche diverse e outcome noti, posso generare una terza transazione “virtuale” che sta a metà strada tra le due, con un outcome anch’esso interpolato.

Questo insegna al modello a ragionare su spazi intermedi, a non concentrarsi solo sui casi esatti che ha visto, ma a sviluppare una comprensione più fluida delle relazioni tra variabili.

L’applicazione pratica richiede però attenzione: l’augmentation deve rispettare i vincoli del dominio applicativo. Se sto lavorando su dati di magazzino, non posso generare giacenze negative. Se modello comportamenti d’acquisto, non posso creare clienti con combinazioni di attributi impossibili nella realtà. Un’augmentation mal progettata produce artefatti che inquinano l’apprendimento invece di migliorarlo.

Il ruolo della regolarizzazione

Può sembrare controintuitivo, ma i vincoli ai dati spesso migliorano le prestazioni. Nel machine learning questo principio si chiama regolarizzazione: l’introduzione deliberata di limitazioni che impediscono al modello di adattarsi troppo perfettamente ai dati di training.

Le tecniche sono diverse:

il dropout disattiva casualmente alcuni neuroni durante l’addestramento, costringendo la rete a sviluppare ridondanza;
il weight decay penalizza i pesi troppo grandi, favorendo soluzioni più semplici;
l’early stopping interrompe l’addestramento prima che il modello inizi a memorizzare i dettagli specifici del dataset.

In contesti con pochi dati, questo trade-off diventa cruciale. Una regolarizzazione calibrata previene la deriva verso soluzioni iper-specifiche, mantenendo il sistema reattivo a input fuori distribuzione.

La sfida è trovare il punto di equilibrio: troppa regolarizzazione porta all’underfitting, a un modello che non cattura nemmeno i pattern fondamentali; troppo poca porta alla memorizzazione, cioè a un modello che funziona solo sui dati che ha già visto.

Il problema del catastrophic forgetting

C’è un altro fenomeno che chi gestisce sistemi AI in produzione deve conoscere: il catastrophic forgetting. Quando si aggiorna un modello con dati nuovi, le reti neurali tendono a sovrascrivere completamente le competenze acquisite in precedenza. Il sistema impara il nuovo, ma dimentica il vecchio e, se i training set sono di dimensioni modeste, questo diventa un grosso ostacolo da superare.

È un comportamento molto lontano dai possibili termini di paragone con l’apprendimento umano. Noi impariamo cose nuove senza dimenticare quelle vecchie, o almeno non nella stessa misura. Le reti neurali funzionano diversamente: i pesi che codificano la conoscenza pregressa vengono modificati durante l’apprendimento di nuove informazioni, e questo può cancellare o degradare gravemente le competenze precedenti.

Le conseguenze operative possono diventare serie. Ad esempio, un sistema di raccomandazione che viene aggiornato con i dati dei nuovi clienti potrebbe perdere la capacità di servire adeguatamente quelli storici. Oppure un modello di pricing che apprende le dinamiche di un nuovo mercato potrebbe dimenticare come gestire quelli consolidati. Ogni ciclo di retraining diventa rischioso.

Le strategie di mitigazione

Il problema in questo caso è strutturale, legato al modo in cui le reti neurali codificano la conoscenza. Non esiste una soluzione definitiva, ma esistono strategie di mitigazione efficaci:

l’elastic weight consolidation identifica i pesi più importanti per i task precedenti e li protegge durante l’aggiornamento, imponendo un costo maggiore alle modifiche su quei parametri;
i replay buffer mantengono un campione di dati storici da ripresentare al modello insieme a quelli nuovi, costringendolo a mantenere le competenze pregresse;
le architetture modulari separano fisicamente le componenti dedicate a task diversi, limitando l’interferenza tra nuovi apprendimenti e conoscenza consolidata.

L’implementazione di queste strategie richiede però scelte architetturali a monte. Non si può innestare l’anti-forgetting su una pipeline già in produzione senza riprogettarla. Chi sta avviando un progetto AI con l’aspettativa di aggiornamenti incrementali nel tempo deve tenerne conto fin dall’inizio.

Progettare per il cambiamento

Un sistema AI-powered robusto non è più centrato sul modello, ma sul processo e sull’architettura che lo circonda nella sua interezza. L’architettura, soprattutto quando fa affidamento su small data, deve prevedere il cambiamento come condizione normale, non come eccezione da gestire.

Questo significa definire in anticipo le metriche da monitorare, le soglie oltre le quali intervenire, le procedure di rollback se un aggiornamento peggiora le prestazioni.

Bisogna quindi accettare che un’automazione AI-powered avrà sempre aree di incertezza e, di conseguenza, è necessario progettare meccanismi di fallback per quelle situazioni specifiche. Un modello di previsione della domanda che non ha mai visto una certa combinazione di fattori non dovrebbe produrre una previsione con apparente sicurezza: dovrebbe segnalare la propria incertezza e permettere un intervento alternativo.

In pratica, quando il modello non ha sufficiente confidenza nella sua previsione, deve poter delegare a regole deterministiche o all’intervento umano. Meglio un sistema che ammette i propri limiti di uno che produce output errati con apparente sicurezza.

Per una PMI questo significa anche dimensionare correttamente le aspettative, perché l’AI non è magia, ma uno strumento che funziona bene in alcuni contesti e meno bene in altri.

L’AI senza i big data

L’intelligenza artificiale senza big data è ormai un approccio maturo, supportato da tecniche consolidate che, nel contesto giusto, può produrre sistemi robusti e adattabili quanto quelli costruiti su enormi dataset. Per le PMI italiane, spesso ricche di conoscenza di dominio, ma povere di dati digitali strutturati, questo è un punto di partenza importante per costruire automazioni aziendali AI-powered.

La sfida quindi è usare intelligentemente i dati che si hanno a disposizione:

generare variazioni sintetiche dove servono;
regolarizzare per evitare la memorizzazione;
proteggere le competenze acquisite durante gli aggiornamenti; monitorare costantemente il drift e prevedere fallback quando l’incertezza è troppo alta.

Con il giusto approccio al progetto è possibile costruire architetture AI basate su small data che funzionano davvero, non solo nei test ma nella realtà operativa quotidiana e nel lungo periodo.

@RIPRODUZIONE RISERVATA