I recenti progressi dei modelli di intelligenza artificiale per l’elaborazione del linguaggio naturale possono rappresentare una soluzione alle criticità nella qualità del dato sanitario, migliorando l’interoperabilità semantica delle informazioni e favorendo notevolmente il processo di digitalizzazione del sistema sanitario
La digitalizzazione del sistema sanitario di cui il nostro Paese necessita per migliorare significativamente i processi di cura in un’ottica sempre più orientata alla medicina di precisione, le analisi per la ricerca scientifica e di programmazione sanitaria, nonché per favorire la sostenibilità del sistema stesso, può essere efficacemente realizzata solo per implementare un piano strategico pluriennale atto a riorganizzare in maniera organica i flussi clinici e amministrativi, le interazioni con i cittadini, le procedure di gare per l’acquisto di beni e servizi da imprese e ad utilizzare appieno le tecnologie emergenti. La digitalizzazione delle informazioni sanitarie e il miglioramento della qualità del dato rappresentano un processo imprescindibile per raggiungere tali obiettivi.
Espressione delle informazioni sanitarie in linguaggio naturale
La digitalizzazione delle informazioni sanitarie in Italia sta trovando finalmente larga accettazione e utilizzo. Allo scopo di favorire questo processo, sono stati localizzati standard internazionali (con particolare riferimento a HL7) per definire formati nazionali specifici per la rappresentazione strutturata dei dati clinici. Tali formati hanno lo scopo di facilitare sia l’interoperabilità e l’interscambio di dati, sia l’elaborazione e la gestione semantica delle informazioni. In ambito medico, però, non si può prescindere da una forma narrativa rappresentata in linguaggio naturale e, pertanto, non è possibile adottare rappresentazioni puramente strutturate delle informazioni. Quindi, seppur all’interno di formati strutturati o semi-strutturati, è quasi sempre necessario prevedere la presenza di una parte narrativa: si pensi a referti, ai diari contenuti nelle cartelle cliniche, etc. A questo tipo particolare di dati, inoltre, si va ad aggiungere una importante documentazione pregressa le cui informazioni sono rappresentate in forma completamente testuale. Tali documenti sono tipicamente prodotti in forma digitale nativa oppure ottenuti dai processi di dematerializzazione attualmente in corso, che stanno rendendo disponibile ulteriore informazione digitale in ambito clinico espressa in linguaggio naturale. Il dato sanitario, quindi, è difficile da trattare con l’AI.
A differenza dei dati strutturati, i documenti clinici o le parti di essi in linguaggio naturale comportano una serie di problematiche e difficoltà quando devono essere elaborate automaticamente, processo fondamentale per analizzare parametri di interesse per motivi di cura, per lo svolgimento di analisi epidemiologiche, di monitoraggio o altro ancora. Le principali criticità sono causate dalla ricchezza e dalla complessità del linguaggio usato dall’uomo e della ulteriore specificità del linguaggio di dominio medicale. Il linguaggio naturale è difficilmente rappresentabile all’interno di sistemi informatici: la varietà del contenuto semantico, la presenza di termini e costrutti polisemici, l’uso di espressioni figurate e, nel caso del dominio medicale, la presenza di terminologia, abbreviazioni e costrutti specifici dell’area biomedica, rendono chiaramente necessario l’uso di strategie ad-hoc, al fine di permettere alla macchina di poter comprendere la semantica del testo ed essere in grado di identificare e selezionare le informazioni richieste dal testo.
Solo a valle di una corretta elaborazione sarà possibile definire quelle funzionalità avanzate di ricerca, analisi ed estrazione di informazioni, capaci di fornire un valore aggiunto al media digitale clinico anche nel caso di documenti narrativi, fornendo una serie di vantaggi ai professionisti del settore sanitario, agli utenti e anche agli amministratori e ai policy maker. Tra le metodologie utilizzate per supportare l’elaborazione e l’estrazione di informazioni dalle parti narrative dei documenti clinici, favorendo al contempo l’interoperabilità semantica e la piena comprensione delle informazioni scambiate a livello nazionale ed internazionale, vi sono le codifiche cliniche, le quali permettono di assegnare un codice standard univoco a informazioni utili e/o necessarie contenute all’interno della parte narrativa dei documenti clinici.
La qualità del dato sanitario
Le codifiche cliniche permettono di migliorare la qualità del dato sanitario, permettendo di individuare immediatamente e senza alcuna ambiguità l’elemento codificato (malattia, farmaco, analisi clinica, etc.). A livello internazionale esistono numerosi sistemi di codifica e classificazione sanitaria, ciascuna delle quali copre uno specifico settore clinico. Il DPCM 178/2015 “Regolamento in materia di fascicolo sanitario elettronico” stabilisce in particolare che ciascuna Regione e Provincia Autonoma ha il compito di redigere i documenti sanitari e socio-sanitari utilizzando i sistemi di codifica descritti di seguito.
ICD (International Classification of Diseases) è uno standard internazionale definito dalla World Health Organization (WHO) per la codifica e la classificazione delle malattie, nato per permettere studi statistici ed epidemiologici, diventato col tempo un valido strumento di gestione di salute e igiene pubblica. Ha la funzione di classificare le malattie e le diagnosi e, quindi, ben si presta sia per l’indicizzazione delle vaste collezioni di documenti clinici digitali, sia per permettere l’interoperabilità semantica a livello internazionale, sia, infine, per evidenziare in maniera sintetica e standardizzata le malattie descritte all’interno di documenti clinici narrativi. Difatti, è utilizzato all’interno di numerose tipologie di documenti (cartelle cliniche, profilo sanitario sintetico, certificati di morte, lettere di dimissione ospedaliera, etc.). La codifica ICD viene periodicamente revisionata, aggiornata ed espansa. Attualmente in Italia è utilizzata la versione 9 Clinical Modification (ICD-9-CM), sebbene a livello internazionale è utilizzata la versione ICD-10-CM ed è già in fase di adozione la versione 11, rilasciata nel 2018.
LOINC (Logical Observation Identifiers Names and Codes) è un sistema di codifica standard largamente usato, atto a favorire la descrizione univoca di osservazioni cliniche e di laboratorio, anch’esso usato a livello nazionale e adottato per permettere l’interoperabilità tra informazioni rappresentate mediante sistemi di codifica proprietari e legacy.
Nel caso dei farmaci e delle sostanze terapeutiche, è ufficialmente utilizzato a livello internazionale il sistema di classificazione ATC (Anatomical Therapeutic Chemical) quale sistema per la classificazione dei farmaci. Anche quest’ultimo è adottato in Italia e usato insieme al sistema di codifica nazionale per i farmaci introdotto da AIFA (Agenzia Italiana del Farmaco) denominato AIC (Autorizzazione all’Immissione in Commercio), che permette di identificare univocamente ogni confezione farmaceutica venduta in Italia.
Difficoltà della rappresentazione semantica delle informazioni
Nonostante l’indubbia utilità e, in alcuni casi, addirittura l’obbligo di legge dell’apposizione di uno o più codici appartenenti a codifiche standard, tale operazione è attualmente del tutto deputata al professionista sanitario, che deve svolgerla spesso senza poter ancora usufruire di supporti informatici adeguati e/o aderenti agli standard. La vastità degli insiemi di codici disponibili (come nel caso di ICD e LOINC) e la loro strutturazione rendono complessa l’operazione manuale di codifica anche per medici esperti, i quali devono analizzare spesso lunghi elenchi di terminologie e poi cercare manualmente, con l’eventuale supporto di strumenti software di ricerca, quella più adatta.
La complessità del linguaggio naturale e, in particolare, della narrativa clinica, rendono dispendiosa e spesso complicata l’operazione di analisi del testo da parte dei medici e, allo stesso modo, da parte di sistemi automatici [1]. Ad esempio, basti pensare che anche malattie o esami clinici molto comuni possono essere descritti o definiti in più modi, spesso anche molto differenti. Tale complessità di analisi si scontra con la necessità di supportare al meglio la corretta individuazione all’interno dei testi clinici di tutti i possibili termini di interesse e delle corrispondenti codifiche.
Una soluzione ai problemi legati all’analisi automatica e all’estrazione di informazioni da documenti narrativi clinici può essere ottenuta mediante l’applicazione delle moderne tecnologie per il trattamento del linguaggio naturale biomedico basate su sistemi di Intelligenza Artificiale, che possono oggi fornire strumenti innovativi per supportare i professionisti sanitari nell’analisi della narrativa clinica e nelle attività correlate, come la scelta delle necessarie codifiche.
Migliorare la qualità del dato sanitario con l’AI
I progressi del Natural Language Processing (NLP) ottenuti grazie alla diffusione delle tecniche di intelligenza artificiale (AI) hanno permesso di definire sistemi smart per l’analisi del testo sempre più performanti, capaci di elaborare con estrema precisione il linguaggio umano. Esempi di tecnologie che sfruttano tali approcci, che oramai sono diventati di uso comune nella vita quotidiana, sono i classici assistenti vocali digitali, capaci di comprendere ed elaborare comandi e richieste vocali in linguaggio naturale sempre più complesse. Le tecniche di AI possono oggi essere utilizzate per analizzare un testo narrativo clinico, individuare le informazioni di interesse all’interno dello stesso e, infine, classificarlo, ossia applicare ad esso una o più etichette. Quest’ultima attività trova, tra le altre, applicazione nell’etichettatura automatica del testo con codifiche cliniche come ICD.
In ogni caso, nonostante le recenti evoluzioni delle tecniche di AI per il trattamento del linguaggio, le peculiarità della narrativa clinica e la vastità degli insiemi di codici specifici rendono tale compito abbastanza complesso. Inoltre, un ulteriore limite dei sistemi di AI risiede nella necessità di avere a disposizione un elevato numero di documenti di esempio, manualmente annotati da esperti di dominio con le rispettive codifiche o le informazioni di interesse, da utilizzare per “addestrare” tali sistemi. Questi ultimi, infatti, apprendono il proprio compito dopo essere state addestrate durante una fase di training su di un numero sufficientemente grande di esempi. Più vasto e più vario è l’insieme di dati analizzati in fase di addestramento e più precisamente svolgeranno il loro compito.
Recentemente sono stati proposti in letteratura i cosiddetti Modelli Neurali del Linguaggio (Neural Language Models, NLM), che hanno permesso di compiere un sensibile balzo in avanti alle prestazioni dei sistemi di NLP [2]. Questi grandi modelli neurali sono pre-addestrati su grandi quantità di dati e riescono ad apprendere sfumature linguistiche di livello superiore. Inoltre, sono capaci di riutilizzare il modello di rete neurale precedentemente addestrato per un determinato compito, per eseguire un nuovo task, sfruttando anche la conoscenza pregressa e utilizzando un minore numero di esempi per l’addestramento del sistema. L’efficacia di tali modelli è stata ampiamente dimostrata in letteratura e le potenzialità intraviste sembrano molteplici.
Sono stati anche di recente realizzati alcuni NLM specializzati su testo medico e clinico, che hanno dimostrato di essere in grado di svolgere task NLP specifici del dominio biomedicale, come la classificazione ICD, con livelli di precisione molto elevati [3]. Tali modelli sono pre-addestrati su grandi corpora di testo biomedicale in lingua inglese, che includono l’enorme numero di pubblicazioni scientifiche biomedicali disponibili in rete, contribuendo in questo modo a fornire sufficiente conoscenza pregressa ai modelli neurali.
Approcci multilingua per l’interoperabilità dei modelli
L’altro lato della medaglia per l’uso degli innovativi NLM è legato alla lingua prettamente inglese per i modelli pre-addestrati. Purtroppo, l’addestramento dei sistemi di AI è strettamente legato alla lingua dei documenti utilizzati in fase di training, rendendo i modelli risultati funzionanti solamente in una singola lingua. Il lavoro di annotazione dei dati utilizzati per l’addestramento (training set) è una operazione lunga e costosa e, spesso, il personale clinico non può dedicarsi a tempo pieno a tale compito. Inoltre, la letteratura scientifica biomedica, utile per pre-addestrare i NLM, è largamente disponibile solo in lingua inglese. Tutto ciò comporta una mancanza di training set in campo biomedico e per i linguaggi meno diffusi, come l’italiano.
Per superare quest’ultimo scoglio, sono recentemente stati presentati in letteratura NLM multilingua: un esempio è l’architettura XLM (Cross-Lingual Language Model), sviluppata presso i laboratori di ricerca di Facebook [4], che addestrano il modello neurale del linguaggio utilizzando corpora testuali multilingua, non necessariamente paralleli, ossia composti da traduzioni degli stessi documenti. In entrambi i casi, questa innovativa classe di sistemi ha dimostrato di essere altamente performante in task cross-language, venendo addestrata su un training set in una lingua e riuscendo ad eseguire lo stesso task anche su lingue differenti da quella usata in fase di addestramento.
La disponibilità di tali NLM multilingua può aiutare ad affrontare la mancanza di corpora biomedici annotati in lingue diverse dall’inglese: sfruttando, ad esempio, testo in inglese per l’addestramento sul task di classificazione e codifica, è possibile poi utilizzare il modello di IA ottenuto per la codifica di documenti clinici in italiano. I risultati ottenuti per l’etichettatura automatica di codifiche ICD-9-CM o ICD-10-CM sono attualmente molto promettenti, suggerendo, quindi, il loro utilizzo per lo sviluppo di sistemi di NLP per lingue e domini in cui le risorse annotate sono scarse, come nel caso del dominio biomedicale in italiano.
Conclusioni
L’adozione di tecnologie di AI per l’analisi dei documenti narrativi clinici è probabilmente l’unico approccio possibile per l’estrazione automatica di informazioni di interesse da esse, a causa non solo della loro complessità, ma anche dell’enorme quantità di documenti ogni giorno prodotta in tale dominio. Nonostante ciò, la realizzazione di questo tipo di sistemi in Italia è attualmente limitata dalla scarsezza di risorse per l’addestramento dei sistemi di AI e quindi, sono necessari ulteriori sforzi per facilitare la realizzazione di questo tipo di risorse. I recenti progressi ottenuti con l’I permettono di superare queste criticità e, se applicati correttamente, nuovi sistemi potranno essere implementati per migliorare la qualità dei dati sanitari generati.
Bibliografia
[1] Silvestri, S., Esposito, A., Gargiulo, F., Sicuranza, M., Ciampi, M., and De Pietro, G. (2019). “A big data architecture for the extraction and analysis of EHR data”. Proceedings of the 2019 IEEE World Congress on Services (SERVICES), pp. 283-288.
[2] Devlin, J., Chang, M-W., Lee, K. Toutanova, K. (2019). “BERT: Pre-training of deep bidirectional transformers for language understanding”. Proceedings of NAACL-HLT 2019, pp. 4171-4186.
[3] Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., Kang, J. (2020). “BioBERT: a pre-trained biomedical language representation model for biomedical text mining”. Bioinformatics, 36(4), pp. 1234-1240.
[4] Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., Stoyanov, V. (2020). “Unsupervised cross-lingual representation learning at scale”. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), pp. 8440-8451.