Il dato come asset adeguato per un determinato processo. Ecco cos’è la Data Quality in un progetto di Intelligenza Artificiale, ormai passata dalla fase della pura sperimentazione a quella della concretezza dei progetti e delle soluzioni. Tuttavia, le aziende faticano a governare tali progettualità, spesso perché manca la preliminare cura alla Data Quality e perché si trascura l’adeguamento infrastrutturale. Due passaggi che invece sono cruciali e persino discriminanti per il successo di un progetto di Intelligenza Artificiale
IDC stima un mercato dell’Intelligenza Artificiale in fortissima crescita e prevede una spesa complessiva worldwide del valore di 46 miliardi di dollari entro il 2020. Secondo le stime di Gartner, Advanced Machine Learning e Data Science saranno le principali tecnologie in grado di supportare i business delle aziende nei prossimi 3-5 anni, complici anche la sempre più ampia disponibilità di dati e la maturità delle tecnologie di analisi.
Tuttavia, disponibilità dei dati e tecnologie di AI – Artificial Intelligence avanzate, infrastrutturali e software, non necessariamente si traducono in un progetto di successo. La progettualità deve partire e avere come fil rouge la Data Quality, intensa non solo nell’accezione tradizionale di qualità del dato ma con una visione più ampia del dato inteso come asset dal quale dipendono sia i successi dei progetti IT incentrati su Machine Learning ed AI sia il successo del business. Ecco perché il concetto di Data Quality, in generale ma ancor di più in progetti di Intelligenza Artificiale, deve tradursi in adeguatezza del dato al processo.
Alte le aspettative delle aziende sull’Intelligenza Artificiale ma inadeguata la preparazione
Le aspettative da parte delle aziende sono elevatissime. Secondo il report realizzato da The Boston Consulting Group (BCG) e MIT Sloan Management Review (Reshaping business with Artificial Intelligence), risultato di una indagine globale che ha coinvolto 3mila manager e analisti di 21 diversi settori intervistati in 112 Paesi, più di tre quarti delle persone intervistate si aspetta che l’Intelligenza Artificiale possa contribuire alla creazione di nuove linee di business se non addirittura (per quasi l’85% dei manager interpellati) di guadagnare o mantenere un vantaggio competitivo.
L’80% dei manager vede infatti l’Intelligenza Artificiale come un’opportunità importante da cavalcare. Soprattutto in alcune business unit specifiche: sei manager su dieci si aspettano grandi impatti sulle proprie organizzazioni (già entro i prossimi cinque anni), in particolare sull’Information Technology, sulle Operations & Manufacturing, sulla gestione della Supply Chain e sulle attività di rapporto con i clienti (Marketing, Customer Journey, Customer Experience, Customer Satifaction, ecc.).
Il roseo quadro viene però contaminato dai risultati della seconda parte di indagine, quello che BCG ha dedicato all’analisi della “maturità” delle aziende nell’affrontare in modo adeguato un progetto di Intelligenza Artificiale: appena 1 organizzazione su 20 sta sfruttando realmente l’AI, sviluppando processi o adottandola in maniera intensiva.
Intelligenza Artificiale e Data Quality: gli aspetti da prendere in considerazione
Secondo gli analisti americani, per poter affrontare in modo adeguato il cambiamento che potrebbe derivare dall’adozione dell’Intelligenza Artificiale, le aziende devono prendere in considerazione molteplici aspetti:
1) occorre capire come sfruttare adeguatamente il potenziale di business;
2) serve organizzare la forza lavoro integrando le persone e i sistemi automatizzati;
3) bisogna comprendere come rispettare i contesti regolatori su aspetti come la tutela della privacy;
4) dal punto di vista tecnico, è necessario valutare e predisporre una struttura dei dati efficace, che consenta agli algoritmi di essere “addestrati”, cioè di imparare dalle esperienze precedenti, condizione che richiede una fortissima attenzione a Data Quality (qualità dei dati e dati come asset) e adeguamento infrastrutturale.
Data Quality: cosa significa in un progetto di Intelligenza Artificiale
La questione dell’importanza dei dati, della Data Quality in particolare, l’ha recentemente affronatata Forrester nello studio “Insight platform, connect data to action”; secondo la società di analisi americana, oggi la sfida maggiore per le imprese è riuscire a ridurre il tempo che intercorre tra l’acquisizione di conoscenza (tramite l’analisi avanzata dei dati) e l’azione. Motivo per cui, dalle analisi di Forrester, il 54% delle tecnologie analitiche che i decision maker stanno oggi implementando nelle aziende riguarda capacità real-time (ed un altro 20% progetta d’implementarle il prossimo anno).
Un aspetto importante per le aziende è la velocità con la quale è possibile rilasciare nuove capacità analitiche, una discriminante che, tuttavia, non può dipendere solo dalle piattaforme di Business Analytics o Big Data Analytics, anche se già evolute in ottica AI con funzionalità di Machine Learning e Intelligent Data Processing.
Come accennato, la variabile principale ricade sul dato e sulla sua qualità, dove per Data Quality si intende in senso esteso “adeguatezza del dato ad un task o processo”, ossia l’affidabilità del dato per un processo.
Considerando che i processi decisionali passano oggi da sistemi sempre più avanzati e automatizzati di analisi, è evidente quanto la Data Quality diventi una discriminante forte di successo nei progetti di Intelligenza Artificiale. Errori nei dati, anomalie, divergenze ma anche duplicazioni e latenze nella disponibilità tendono a propagarsi dagli ambienti dove il dato si genera e raccoglie fino a dove viene utilizzato; il rischio è dunque che ad alimentare l’AI arrivino dati non idonei, compromettendo quindi il risultato atteso.
La base di tutto sta nei dati, nella loro qualità (Data Quality) e nella loro disponibilità. Definire un dato qualitativo dipende dai cicli di regressione che si effettuano. Ad ogni ciclo, i dati, la loro struttura e ovviamente l’algoritmo vengono raffinati per permettere al modello di convergere. Per questo motivo, poter minimizzare gli spostamenti dei dati durante i cicli di raffinamento è Il “segreto”, secondo la visione di Pure Storage in merito, per rendere efficace e rapido il processo di Machine learning e le relative fasi di apprendimento. In altre parole, minimizzare lo spostamento del dato è uno degli obiettivi principali da perseguire per avere infrastrutture realmente in grado di reggere operazioni come quelle di Machine Learning e di Intelligenza artificiale, e deve quindi trovare il giusto approccio all’interno delle più ampie strategie di Data Quality delle imprese.
Storage “trait d’union” tra la Data Quality e l’Intelligenza Artificiale
La maggior parte degli algoritmi di Artificial Intelligence e Machine Learning necessita di enormi quantità di dati e di potenza di calcolo per funzionare al meglio; necessità che le aziende spesso sopprimono trovando negli ambienti e nelle infrastrutture di public cloud un acceleratore. Tuttavia, lo spostamento dei dati non sempre è vantaggioso (e non necessariamente utile per adottare una strategia ed un modello cloud).
Considerazioni da prendere tutt’altro che “alla leggera”: stando infatti alla più recente analisi di McKinsey Global Institute [condotta su oltre 200 realtà aziendali in Usa ed Europa, operative in 15 settori industriali, correlando il “tradizionale” Digital Index di McKinsey – l’indice di utilizzo e sviluppo delle tecnologie digitali – con il più attuale AI index, l’indice sviluppato ad hoc dalla società di analisi e consulenza per monitorare gli investimenti e i livelli di utilizzo dell’Intelligenza Artificiale da parte delle aziende utenti – ndr], l’adozione delle tecnologie e delle soluzioni legate al mondo dell’Intelligenza Artificiale è sistematicamente maggiore e più frequente in quelle realtà dove si sono fatti precedenti investimenti infrastrutturali, in particolare verso architteture cloud-ready e moderne infrastrutture storage.
Deep Learning e applicazioni di AI richiedono ampi volumi di dati per “formare”, testare e validare gli algoritmi delle reti neurali, situazione che per gli amministratori dei data center può sollevare qualche criticità dal punto di vista dello storage.
«Se gli algoritmi di Machine Learning sono prevalentemente basati su processi “di regressione” (test di regressione per verificarne l’efficacia), allora potrebbero bastare set di dati limitati. Tuttavia, per reti neurali sofisticate e algoritmi avanzati si presenta un problema di scalabilità (dei dati e delle infrastrutture che li devono supportare)», è l’analisi di Chirag Dekate, Research Director di Gartner. «Le tradizionali architetture NAS – Network Attached Storage offrono risultati immediati in termini di deployment semplificato ed efficienza out-of-the-box ma problemi di scalabilità dell’I/O e di latenza si presentano comunque».
Secondo gli esperti di Pure Storage, la risposta sta nell’utilizzo di nuovi sistemi di memorizzazione dati non strutturati che non risentano delle tipologie di dato stesso per fornire le adeguate prestazioni e latenze e ovviamente nell’utilizzo contestuale della tecnologia Flash che di fatto ha consentito alle infrastrutture storage di diventare “adattive” eliminando il problema della distribuzione del dato.
Quello dello storage a supporto dell’Intelligenza Artificiale è forse l’ambito più critico dove vedremo le tecnologie maturare di pari passo con l’AI stessa, un po’ come è avvenuto per le infrastrutture a sostegno dei Big Data e sta avvenendo per l’IoT. A patto però, che la Data Quality rappresenti quel ponte tra dati, infrastrutture, sistemi di AI e Analytics, e decisioni di business.