Il contributo dell’AI alla sanità digitale

Fascicolo sanitario elettronico, computer vision, linguaggio naturale, reti neurali e supercalcolatori sono i cardini della trasformazione digitale e anche della lotta contro il Covid-19 [...]
ML Machine Learning - Artificial Intelligence concept
  1. Home
  2. Intelligenza Artificiale
  3. Il contributo dell’AI alla sanità digitale

L’articolo 12 del Decreto legge 18 ottobre 2012 n. 179 e ss.mm.ii. definisce il Fascicolo Sanitario Elettronico (FSE) e i principali requisiti da rispettare per la sua realizzazione sul territorio nazionale. È definito come “l’insieme dei dati e documenti digitali di tipo sanitario e sociosanitario generati da eventi clinici presenti e trascorsi, riguardanti l’assistito”.

IL FSE è formato e alimentato in modo continuativo dai sanitari del SSN e dai servizi socio-sanitari regionali, e con i dati medici in possesso dell’assistito.

Il FSE è istituito dalle regioni e province autonome, nel rispetto della normativa vigente in materia di protezione dei dati personali, a fini di:

  • prevenzione, diagnosi, cura e riabilitazione;
  • studio e ricerca scientifica in campo medico;
  • biomedico ed epidemiologico;
  • programmazione sanitaria, verifica delle qualità delle cure e valutazione dell’assistenza sanitaria.

In coerenza con i provvedimenti attuativi DPCM 178/2015 e Decreto del 4 agosto 2017 del ministero dell’Economia e delle Finanze, modificato dal Decreto 25 ottobre 2018, sono state formalizzate le specifiche nazionali che descrivono le modalità tecniche da rispettare per l’interscambio di documenti digitali di natura sanitaria tra tutti i sistemi sanitari regionali di FSE, al fine di garantirne l’interoperabilità[1].

In riferimento al formato, tali documenti devono essere formalizzati in conformità a HL7 CDA Rel. 2.0, basato sul linguaggio XML che descrive la struttura, la codifica e la semantica di documenti clinici, con formalizzazione di diversi gruppi di lavoro che hanno prodotto tipologie di documenti quali:

  • referto di laboratorio
  • profilo sanitario sintetico
  • lettera di dimissione ospedaliera, ecc.[2]

Considerata la grande mole di documenti è prevista la possibilità di formalizzare tali documenti anche in formato pdf, per poi produrne una versione strutturata conforme allo standard HL7 CDA Rel. 2.0., processo complesso ma obbligatorio.

Quindi per disporre di un documento strutturato interoperabile di dominio biomedicale è necessario individuare, classificare ed estrarre le informazioni presenti e successivamente inserire le informazioni ottenute all’interno di una struttura standardizzata.

Permettere ad una macchina di “comprendere” il contenuto di un testo è un problema di non semplice soluzione.

Qui ci soccorre una specifica area di ricerca dell’AI che studia proprio le tecniche per l’elaborazione e la comprensione del linguaggio naturale NPL (Natural Language Processing).

Tra le numerose metodologie sviluppate in tale ambito:

  • Named Entity Recognition (NER)
  • Relation Extraction (RE)
  • Test Classification (TC)

Il NER individua entità di dominio classificandone anche la sottoclasse corrispondente. È possibile così individuare i gruppi di parole relativi a concetti e informazioni principali del dominio di interesse contenute nel testo.

Una volta estratte le entità di dominio, per strutturarle in maniera corretta e funzionale, è necessario riconoscere e classificare le eventuali relazioni tra le entità stesse, utilizzando il task del RE.

Le più recenti metodologie per l’AI, basate su reti neurali di tipo deep learning, utilizzano architetture complesse attraverso cui è possibile definire modelli neurali di linguaggio:

  • Word embeddings[3]
  • ELMO[4]
  • BERT.

Questi metodi sono oggi in grado di ottenere risultati più che ottimali per realizzare l’architettura automatica per l’estrazione e la strutturazione delle informazioni.

WHITEPAPER
Telemedicina: come attivare una valida rete ospedale-medici-territorio
Sanità

Un limite all’applicazione delle metodologie di AI deriva dalla necessità di disporre di un numero adeguato di documenti annotati manualmente da esperti (professionisti e operatori sanitari), attraverso cui addestrare le reti neurali[5].

L’AI nel contrasto alla diffusione del Covid-19

La ricerca di una cura efficace contro il coronavirus nel più breve tempo possibile mette in luce la necessità di un “urgent computing”, ovvero l’uso di super-calcolatori che sappiano prevedere l’interazione tra il farmaco e il bersaglio virale[6].

L’AI, e in particolare la computer vision, sta già dando un contributo alla diagnosi, mediante la tradizionale radiografia toracica, con diminuita richiesta di test molecolari nella prima fase dell’epidemia.

In questa fase il contributo dell’informatica italiana è rivolta a trovare una cura più specifica per il Covid-19, il cui aspetto strutturale è di un singolo filamento di acido ribonucleico disposto come una corona solare con punte superficiali lunghe 9-12 nanometri.

Il suo genoma contiene le istruzioni per la sintesi delle principali proteine strutturali presenti sull’involucro del virus stesso. Una di queste, la proteina spike (S) è quella che entra nella cellula ospite.

La produzione di queste proteine strutturali il virus la compie attraverso l’uso di proteasi che spezzano le poli-proteine in alcuni punti di taglio predefiniti, costituiti da legami peptidici.

Questi punti, detti “cleavage sites”, sono fondamentali per la replicazione del virus.

Se, per esempio, l’operazione di taglio non avviene correttamente per la proteina spike, il virus rimane senza punta e non può perforare l’involucro delle cellule dell’ospite.

I ricercatori, in questa fase, sono alla ricerca di farmaci che, disponendosi sui punti di taglio della proteina S, ne inibiscano la produzione.

Il farmaco ideale deve aderire fortemente alla poli-proteina a monte e a valle del punto di taglio, e deve poi disporsi sul cleavage site neutralizzando l’azione della proteasi.

Poiché il tempo stringe e non è possibile attendere il lungo percorso della sperimentazione del farmaco in vitro, sull’animale e infine nell’uomo, occorre verificare il comportamento di composti già sperimentati e registrati come farmaci (repurposing).

La simulazione con AI, mediante la sofisticata funzione di matching (detta affinità), valuta l’interazione tra il farmaco e il bersaglio tenendo conto dell’adesività ai margini e del corretto posizionamento tridimensionale alla giunzione.

Il problema può essere riformulato in termini di elaborazione del linguaggio naturale (NLP) tenendo conto di una parola in una frase e del contesto con strumenti come il Bert che usa un approccio basato su trasformazioni pre-calcolate che rendono la verifica molto più veloce.

Si tratta di un compito che richiede un’enorme potenza di calcolo per poter essere eseguito nel tempo ristretto che l’emergenza ci concede.

I supercalcolatori disponibili in Italia come Marconi, del consorzio inter-universitario italiano CINECA, hanno enormi potenze di calcolo, e possono eseguire milioni di miliardi di operazioni al secondo.

In questa fase computer come Marconi stanno simulando il comportamento delle proteine codificate dal genoma del Covid-19, in particolare di quelle che gli permettono di replicarsi (come la proteina S) in modo da poter poi testare virtualmente le molecole farmaceutiche più efficaci a inibire il virus, e passare alla fase di validazione in laboratorio accelerando la produzione di farmaci efficaci.

Ciascuna proteina richiede una settimana di simulazione continua sui 16 nodi del super-computer.

I risultati delle simulazioni saranno analizzati tramite la piattaforma Exscalate, nata da Cineca, casa farmaceutica Dompè e Politecnico di Milano.

Tale piattaforma è stata sviluppata nel contesto del progetto Antarex, finanziato dalla Commissione europea, nato circa 15 anni fa.

Recentemente, la Comunità europea ha lanciato dei progetti finalizzati a garantire una risposta efficace e coordinata all’emergenza, a cui le strutture di super-computing del Cineca di Bologna e quella catalana di Barcellona si sono rese disponibili a collaborare, insieme ai Consorzi Interuniversitari di Ricerca, come quello su High Performance Computing del CINI.

Exscalate può contare su un linguaggio chimico di 500 miliardi di molecole che possono essere testate per simulare l’affinità farmaco-bersaglio, ed è in grado di valutare più di tre milioni di molecole al secondo.

Conclusioni

Anche l’Italia gioca un ruolo importante in questa partita così complessa e spasmodica, e questa è una realtà dovuta alla progressiva digitalizzazione della sanità: il FSE rende possibile la condivisione su larga scala di dati clinici, referti, diagnosi, cartelle cliniche con tecnica di NLP.

I super-calcolatori valutano con velocità impensate l’affinità di molecole farmacologiche efficaci a01 inibire il virus.

 

 

  1. Agenzia per l’Italia Digitale, Standard documentali, https://www.fascicolosanitario.gov.it/Standard-documentali
  2. T. Mikolov et al., “Distributed representations of words and phrases and their compositionality” in NIPS 2013, 2013, pp. 3111-3119
  3. M.Peters et al., “Deep contextualized word representations”, in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistic: Human Language Technologies, Volume 1 (Long Papers). ACL., 2018, pp. 2227-2237
  4. J Devlin et al., “BERT: Pre-training of deep bidirectional transformers for language understanding” In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). ACL, 2019, pp. 4171-4186
  5. M. Ciampi et al., “Sanità digitale in cerca di standard: l’intelligenza artificiale è la carta vincente”artificiale-e-la-carta-vincente/
  6. E. Damiani, “Supercalcolo e AI contro il Covid-19: il contributo dell’Italia” in Agenda Digitale https//www.agendadigitale.eu/cultura-digitale/super-calcolo-e-ai-contro-il-covid-19-il-contributo-dellitalia/
WEBINAR
Blockchain, Iot, AI per una Supply Chain intelligente e più efficiente
Blockchain
Intelligenza Artificiale

 

FacebookTwitterLinkedIn