Guide

Data science, cos’è, ambiti di applicazione e vantaggi

Una analisi di quella branca dell’informatica che si occupa di analizzare i dati e di renderli fruibili, ossia di trasformare i dati in informazioni

Pubblicato il 25 Gen 2022

CIO

La data science ha a che fare con l’intelligenza artificiale? È così solo in parte. Vediamo il perché.

Cos’è la data science?

La data science è quella branca dell’informatica che si occupa di analizzare i dati e di renderli fruibili. Per essere più precisi, si occupa di trasformare i dati in informazioni. Un’azienda o un individuo potrebbe avere Terabyte di dati, ma nessuna informazione; cosa che spesso accade. Per fare un esempio pratico, il lettore può pensare a tutti i dati relativi ai consumi di tutti i contatori elettrici di una nazione riversati in uno spazio comune (data lake). Questi dati, da soli, finché restano nel data lake non dicono nulla, ma quando vi si applica la data science, i medesimi dati ci possono fornire moltissime informazioni sulle abitudini dei consumatori, sulle loro necessità, sulla ruttibilità dei dispositivi in campo, etc.

Nel processo di trasformazione, dai dati alle informazioni, la data science utilizza molte tecniche matematiche; alcune di derivazione statistica, altre che hanno molto in comune con le tecniche di Machine learning. In questo senso, il confine tra data science e AI è labile e sottile, ma la loro contiguità termina qui. Nella realtà, ciò che capita è che gli algoritmi di data science vengono generalmente applicati per la pulizia dei dati, per il loro enrichment, la loro esplorazione, il tutto finalizzato a una fase successiva in cui l’AI (o il Machine learning, a seconda del caso) prendono il podio e operano per la loro parte eseguendo sintesi, generazione, forecasting e altri task che non sono compresi nella data science.

La data science non è più o meno importante dell’AI. In molti casi è propedeutica, ma può operare anche completamente disgiunta dalla seconda. Può fungere da benzina per l’AI o può essere utilizzata per aumentare la conoscenza intorno ai propri dati in modo autonomo.

Storia della scienza dei dati

Seppure la prima associazione di categoria nasca solo nel 1977, la International Association for Statistical Computing (IASC), la storia della materia risale ai periodi della fondazione della matematica. I primi fisici greci spesso usavano ricavare la leggi della natura proprio e direttamente dalle misurazioni empiriche che essi stessi svolgevano; parliamo degli anni della definizione del Principio di galleggiamento di Archimede. In epoca moderna, troviamo pietre miliari: del 1962 “The Future of Data Analysis” del leggendario John W. Tukey e nel 1974 a opera di Peter Naur, che scriveva della data science come “The science of dealing with data, once they have been established, while the relation of the data to what they represent is delegated to other fields and sciences.”, dove pur non citando direttamente l’intelligenza artificiale ne delineava le contiguità.

Ci sono state inoltre ulteriori pubblicazioni negli anni ’80 e ’90, per poi giungere al conio del termine e dell’accezione contemporanea di data science, quando questa si è rivelata essere anche una professione, e tra le meglio retribuite. Nel 2021 la data science è normalità, è un assunto sia nella vita delle aziende che in quella degli individui, anche se taluni spesso non la percepiscono perché non così immediatamente evidente. Nel prossimo immediato futuro il ruolo di questa scienza è destinato a espandersi e assumerà una sempre maggiore importanza, sia in termini di risultati economici generati, che di ala portante verso nuove mete della conoscenza in generale.

data science

Cosa hanno in comune data science, AI e machine learning

Come abbiamo visto, il Machine learning è un sottoinsieme dell’AI, anche se a essere più precisi, è addirittura una tipologia di AI che prende le mosse dalle informazioni per generarne di nuove. La data science è invece il sottostante scientifico che gestisce i dati, prima che essi possano divenire benzina per entrambi.

È pur vero che i moderni data scientist, nella loro accezione più ampia del termine, sono anche dei machine teacher, ovvero figure professionali che applicano e interagiscono con modelli di Machine learning, ma bisogna tener sempre presente che la toponomastica di queste scienze e di queste figure va tenuta distinta rispetto alla geografia delle attività che ruotano tra la gestione dei dati e l’AI. La corrispondenza biunivoca che lega il successo di un modello AI a una diligente attività di data science preliminare, lascia spazio anche a una dignità autonoma all’attività di raffinazione delle informazioni.

Differenza tra data science e data analysis

Tipicamente si definisce data analysis l’attività legata alla creazione di grafici, cluster, diagrammi di tendenza collegati a un insieme di dati, solitamente anche di tipo esclusivamente numerico. La data science ha invece un legame più profondo con le informazioni che essa è in grado distillare dai dati stessi. In poche parole, la data analysis è una tecnica che si utilizza per creare dahsboard, cruscotti, visualizzazioni, mentre la data science è una scienza che parte dai dati per generare informazioni di un livello semantico superiore a utilizzo di un AI o di un essere umano.

Con la data analysis possiamo farci una rapida idea generale di cosa sia o non sia contenuto nei nostri dati. Con la data science possiamo portare queste informazioni a un livello superiore ed estrarne del reale valore applicativo, di conseguenza anche del denaro.

In quali ambiti viene applicata la data science?

Non ci sono ambiti dove la data science non possa essere applicata. Dalle pubbliche amministrazioni alle aziende, questa scienza ha rivoluzionato il modo in cui pensiamo il mondo e il modo in cui diamo un valore alle cose. Molti investitori stanno scommettendo su aziende che, come business goal, hanno la raccolta di dati. I dati rappresentano la nuova materia prima e superano in molti casi l’oro e il platino come valore specifico. Nell‘800 abbiamo imparato a estrarre petrolio per ricavare benzina al fine di alimentare i nascenti motori endotermici, nel secondo decennio del secondo millennio stiamo apprendendo come estrarre dati al fine di raccogliere informazioni. Se le raffinerie del ‘900 erano governate dai chimici, le raffinerie contemporanee sono governate dai data scientist.

La nuova catena del valore emergente culmina con l’applicazione di AI al mondo che ci circonda, ma per riuscire a farlo abbiamo bisogno di schiere di data scientist che si ingegnino per estrarre informazioni pregevoli da un mare di dati insignificanti. Non c’è settore che sfugga a questa nuova regola del business, esistono solo alcune sacche di inefficienza economica che restano sedute su montagne di dati di cui non comprendono a pieno il valore. Non parliamo solo di dati in corso di generazione, ma anche di dati storici; archivi il cui valore informativo potrebbe far nascere una nuova unicorn che deve ancora essere scoperta da un data scientist. Forse le prossime aziende che sbancheranno Wall Street non saranno creatori di prodotti, ma ci regaleranno dei prodotti per acquisirne i dati derivanti dal loro utilizzo.

Quali sono i vantaggi della data science per le aziende?

Le aziende stanno apprendendo cosa significhi far tesoro dei loro dati. Un’azienda, qualsiasi azienda, produce enormi quantità di dati; essa possiede dati sui propri fornitori, sulle vendite, su come si comportano i propri dipendenti e sui propri clienti. La data science può, da un lato, fornire indicatori utili e determinanti per l’ottimizzazione dei processi interni, dall’altro può rappresentare una risorsa per generare nuove revenue basate sull’utilizzo o sulla vendita delle proprie informazioni.

Facendo un esempio ipotetico, l’unione dei tabaccai potrebbe possedere i dati delle vendite di ogni singolo punto vendita nazionale. Sempre procedendo per ipotesi, l’unione dei tabaccai potrebbe essere a conoscenza, ricavando questa informazione dei propri dati, che quando il prodotto con la scatola rossa viene esposto al pubblico d’estate, vende meno del prodotto con etichetta verde. Questa singola informazione, per un produttore di sigarette con un fatturato simile al nostro PIL nazionale e che si ostina a fabbricare pacchetti dalla scatola rossa anche d’estate, potrebbe valere molti e tanti milioni di euro. Parliamo di un esempio ipotetico, ma non troppo. Abbiamo inventato una nuova professione, il data scientist, l’estrattore di informazioni utili dal marasma dei dati senza senso.

What Is Data Science? (Explained in 5 Minutes)

What Is Data Science? (Explained in 5 Minutes)

Guarda questo video su YouTube

Video

Come diventare data scientist

Se l’aspirazione del lettore è quella di divenire il nuovo DJ Patil (Head of Data Science Dpt di LinkedIn), o la nuova Caitlin Smallwood (Head of Data Science Dpt di Netflix), la base dello studio è la passione per i dati e per ciò che essi rappresentano. La carriera dell’apprendista data scientist deve fondarsi su solide basi matematiche, grande creatività e interessi variegati. Il data scientist moderno deve saper applicare le sue tecniche ai numeri, ai testi, alle informazioni strutturate quanto a quelle destrutturate. Il profilo ideale è quello di un individuo con una formazione a tutto tondo, in grado di spaziare sui temi scientifici, quanto umanistici, passando dalla medicina e per la fisica. Non è sempre necessario che il data scientist sia anche competente per le informazioni relative al dominio in cui stia operando, ma sicuramente lo potrà aiutare nell’esercizio delle sue funzioni. Una persona dagli interessi poliedrici risulta certamente avvantaggiata in una professione dove la competitività è spesso definita dalla capacità di intuire in quale futuro settore si potranno scovare informazioni di pregio tra i dati che qualcuno sta semplicemente cestinando. Alla base di questa professione c’è la matematica, ma per portarla ai massimi livelli espressivi serve spirito di adattamento ed una base di conoscenza molto ampia.

Conclusioni

La stampa ci ha insegnato che in Cambridge Analytica, un pugno di data scientist influiva sulle elezioni dei presidenti delle nazioni più importanti del mondo. Se vorrete svolgere questa professione, dovrete riuscire a vedere un social network come una moderna Matrix, dove i like e i commenti degli individui non sono null’altro che il filone d’oro celato dietro pareti spessissime di fango. Dovrete essere un po’ minatori, un po’ ingegneri e un po’ artisti del riciclo. Diventare un data scientist significa sporcarsi le mani e non aver paura di immergersi, anche quando l’acqua è torbida. Oggigiorno i data scientist partecipano alle attività dei corpi speciali e salvano la vita delle persone interpretando i risultati dei vaccini. Forse è ancora presto perché Hollywood vesta un moderno Rambo in camicia e lo faccia operare tramite uno Jupiter Notebook in linguaggio R, ma forse non siamo nemmeno così lontani.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati