L’utilizzo dell’AI nella pratica clinica: successi e problematiche ancora aperte

Dal Piano del Governo al Libro Bianco della Commissione Europea, le iniziative istituzionali per sviluppare le tecniche di intelligenza artificiale nella sanità. Cronistoria degli ultimi cinquant’anni e alcuni casi di successo

Nel documento prodotto dal MISE sulla Strategia nazionale per l’intelligenza artificiale (AI, nel seguito), fra i sette settori chiave, il Governo ha identificato la salute e la previdenza sociale. L’attuazione della strategia si baserà su quattro punti cardinali: il partenariato pubblico-privato, la collaborazione intra- e inter-istituzionale, la sinergia con l’azione europea e il monitoraggio e la valutazione delle evidenze generate. La Strategia nazionale si inserisce nel quadro del Piano Coordinato Europeo per l’Intelligenza Artificiale.

Nel suddetto ambito, vengono identificate le seguenti aree: chirurgia assistita con la robotica intelligente, assistenza infermieristica virtuale, supporto alla diagnostica per immagini, gestione dei fascicoli sanitari elettronici. Gli interventi dovranno riguardare l’impulso all’innovazione, la predisposizione di standard condivisi nelle varie regioni, il supporto a individui con disabilità per l’inclusione sociale di categorie di cittadini svantaggiati, nonché il soddisfacimento dei nuovi bisogni derivanti dall’invecchiamento della popolazione. L’idea di base è che il nostro paese possa inaugurare un nuovo Rinascimento economico, sociale e ambientale. Questo dovrà basarsi su un nuovo rapporto tra uomo e macchina, nel quale la tecnologia aumenta le capacità umane.

Indice degli argomenti:

Cosa dice il Piano Coordinato Europeo per l’Intelligenza Artificiale

Nelle raccomandazioni contenute nel documento, si dice che l’AI nell’ambito sanitario deve coniugarsi con altre tecnologie emergenti, come l’Internet della Cose (IoT) e la connettività 5G. Tutto ciò renderà disponibili una grande mole di dati sulle condizioni di salute dei pazienti che potrà essere usata anche per effettuare la diagnosi precoce di patologie e di eventi acuti.

Ancora secondo il documento, il problema dei dati è oggi diventato rilevante da molti punti di vista. Per molto tempo i cittadini e le autorità pubbliche ne hanno sottovalutato l’importanza, lasciando il campo ai soggetti privati. Solo adesso alcuni governi europei stanno pensando di imporre obblighi di condivisione dei dati alle imprese di grandi dimensioni. La strategia europea per l’intelligenza artificiale prevede delle iniziative per la creazione di spazi comuni europei di dati, in particolare nel settore sanitario.

Si fa riferimento anche agli open data e alla piattaforma digitale nazionale dei dati prevista nel Codice dell’Amministrazione Digitale e in via di realizzazione da parte del Commissario straordinario per l’attuazione dell’Agenda Digitale. Si afferma che “l’accessibilità dei dati abilita le potenzialità dell’intelligenza artificiale, che di dati si alimenta e da cui trae valore. Privati cittadini, università, enti di ricerca, imprese piccole medie e grandi, potranno valorizzare il patrimonio informativo pubblico, creando applicazioni, start-up, posti di lavoro e implementazioni industriali grazie all’applicazione di tecniche di intelligenza artificiale ai dati massivi dello Stato Italiano”.

A tal proposito viene data anche la seguente raccomandazione per uno sforzo congiunto pubblico-privato: “Nell’ottica di uno sviluppo tecnologico attento all’uomo, alla produttività e all’affidabilità dell’ecosistema tecnologico e allo sviluppo sostenibile, è necessaria una collaborazione stretta e costante tra pubblico e privato, con costante impegno alla revisione delle regole, alla rappresentazione delle esigenze e alla realizzazione di politiche per il benessere generale del paese. Tale sforzo si deve concretizzare anche nella definizione di politiche di dati specifiche per settori chiave come IoT, manifattura e robotica (embedded AI), i servizi (in primis la sanità, ma anche la finanza), la sostenibilità nei trasporti, agrifood ed energia, i servizi pubblici, la cultura e le digital humanities”.

L’etica dell’AI

Un’ulteriore attenzione viene posta sulle linee guida europee per un’etica dell’AI. Si parla di un’AI affidabile o meritevole di fiducia (trustworthy AI) ci si ispira ai seguenti principi: il principio del rispetto dell’autonomia dell’individuo, il principio di prevenzione del danno, il principio di equità, il principio di spiegabilità.

Circa gli investimenti, si propone che l’Italia debba concentrarli puntando all’embedded AI in alcune aree specifiche fra cui i servizi e la sanità, in strutture, come ad esempio quella dello Human Technopole di Milano, in cui portare avanti lo studio combinato delle malattie e dell’impatto delle politiche sanitarie utilizzando genetica, big data, bioinformatica e così via. Si evidenzia inoltre come “in sanità crescono le applicazioni delle tecnologie di AI, come conseguenza dell’enorme quantità di dati medici a disposizione dalla ricerca, attraverso i registri clinici dei medici di base, le cartelle cliniche ospedaliere, i referti e gli esami di laboratorio, per citarne alcuni. Il settore sanitario italiano sta effettuando considerevoli investimenti in AI soprattutto per quanto concerne la medicina di precisione, la diagnostica e la ricerca su nuovi farmaci. Esiste anche un certo interesse nel campo dell’assistenza ai pazienti e nella robotica in chirurgia. La collaborazione tra ricerca, industria e sistema ospedaliero è assai stretta”,

Una amministrazione “user centric”

Infine, viene preso in considerazione anche l’aspetto amministrativo. L’amministrazione deve diventare user centric. Ciò richiede una “reingegnerizzazione dei processi, il riutilizzo dei dati e l’interoperabilità tra amministrazioni, in un contesto nel quale l’utente individuale si trova a poter accedere facilmente ai servizi pubblici, a mantenere il controllo dei propri dati personali e a beneficiare del maggiore scambio di dati tra le amministrazioni che lo servono (c.d. principio dello ask only once). In quest’ottica, è utile distinguere primariamente due ambiti applicativi, quello del front-end, ovvero l’ambito in cui la PA si adopera per fornire servizi a cittadini e imprese, e quello del back-end, riferito al lavoro che la PA svolge per garantire la realizzazione di servizi e l’organizzazione tra distinte pubbliche amministrazioni, sia a livello orizzontale (amministrazioni di pari livello gerarchico o ad esso immediatamente subordinate) sia a livello verticale (dal nazionale al locale e viceversa)”.

Il Libro Bianco della Commissione Europea

Le linee della Strategia vengono ribadite nel libro bianco “On Artificial Intelligence – An European approach to excellence and trust” che la Commissione Europea ha pubblicato nello scorso mese di febbraio. In esso si osserva come questa tecnologia, che si sta sviluppando velocemente, potrà essere di beneficio per la nostra vita migliorando tutta una serie di servizi e prodotti, fra cui la sanità. Tuttavia vengono evidenziati i rischi a cui si va incontro. Il documento contiene diverse raccomandazioni per la realizzazione di sofisticati prodotti e servizi sicuri e affidabili per una crescita economica e per il benessere sociale, che può derivare anche dal valore creato dalla grande disponibilità di dati. Si parla, pertanto, di politiche che intendono fare dell’Europa un leader globale nell’innovazione e nell’economia dei dati e delle loro applicazioni, attraverso il raggiungimento di un “ecosistema dell’eccellenza” e un “ecosistema dell’affidabilità e della sicurezza (trust)”.

Per raggiungere tali obiettivi viene anche qui ribadita la necessità di stabilire un solido partenariato pubblico-privato. Circa i rischi, che riguardano non solo la sicurezza ma anche i diritti fondamentali dell’essere umano, si delinea un sistema di regole che devono essere considerate negli interventi legislativi comunitari e dei singoli paesi europei e che si riveleranno necessarie per adattarsi all’avvento di questa tecnologia nel contesto economico e sociale. I fattori specifici da considerare dovranno riguardare i dati con cui effettuare l’addestramento dei sistemi di intelligenza artificiale, la gestione e conservazione di tali dati, l’informazione da fornire agli utenti, la robustezza e l’accuratezza, la supervisione umana, nonché eventuali specifici requisiti per particolari applicazioni, come quelle relative all’identificazione biometrica remota. Si parla infine di una struttura europea di governance sull’AI, che dovrà cooperare con le autorità nazionali per evitare la frammentazione delle responsabilità, per aumentare le capacità degli stati membri e per garantire le opportune procedure per il test e la certificazione dei prodotti e dei servizi basati sull’AI.

L’evoluzione dell’AI negli ultimi cinquant’anni

Alla fine degli anni ‘70 sono proprio le applicazioni alla medicina che fanno sì che l’intelligenza artificiale diventi un’industria. Questo è il periodo d’oro dei sistemi esperti e dell’ingegneria della conoscenza, che dura per buona parte degli anni ‘80. Ad esempio, il progetto Mycin della Stanford University vede collaborare ingegneri e medici, guidati dai ricercatori di computer science Buchanan e Feigenbaum e dal medico Shortliffe, per lo sviluppo di un sistema per la diagnosi e la terapia di infezioni batteriche del sangue. Viene sviluppato un sistema con cui è possibile dialogare come con un esperto in situazioni d’emergenza, quando non può essere presente un vero esperto umano.

Mycin innesca un grande interesse sia accademico che industriale intorno alle tecniche di intelligenza artificiale e, in particolare ai sistemi esperti. Vengono sviluppati in diversi centri di ricerca sistemi esperti per varie applicazioni e, in particolare, per i diversi ambiti della medicina. Negli anni ‘80 anche molte industrie investono sul settore con macchine orientate ai linguaggi per intelligenza artificiale, come la LISP machine, e sistemi software per lo sviluppo di sistemi esperti, come OPS 5 e KEE.

Anche in Italia diversi gruppi accademici si dedicano allo sviluppo di sistemi esperti, in larga misura nell’ambito medico, e sorgono diverse imprese che intendono supportare tali ricerche e sfruttarne i risultati. Presso l’Università di Genova, ad esempio, vengono sviluppati BreastScan per la terapia dei tumori al seno, in collaborazione con l’Istituto Nazionale Tumori di Milano, e un sistema esperto per il supporto alle decisioni per gli interventi di assistenza agli anziani, in collaborazione con le aziende sanitarie del territorio ligure. In quegli anni vengono anche finanziati dei progetti nazionali come quello sui sistemi esperti in medicina del CNR.

Purtroppo i numerosi sistemi che vengono sviluppati in quegli anni non riescono a superare lo stato prototipale e trovano una fredda accoglienza per il loro uso sul campo nell’ambiente medico e sanitario, anche se molti medici partecipano con entusiasmo alla loro realizzazione.

Alla fine degli anni ‘80 avviene un cambiamento di rotta nella ricerca sull’intelligenza artificiale. Negli anni precedenti ci si era concentrati sulla formalizzazione della conoscenza e del ragionamento. Poca attenzione era stata posta sulla capacità delle macchine di imparare. Una reazione a quest’approccio si ha con il rinnovato interesse per le reti neurali.

Il modello era già stato proposto da McCulloch e Pitts già negli anni ‘40 e si basa su una rete di neuroni artificiali in grado di eseguire operazioni logiche. La novità sta in alcuni nuovi algoritmi per l’apprendimento, fra cui quello della retropropagazione dell’errore, che permette a ogni singolo neurone di una reti a più strati di aggiustare le sue sinapsi per ridurre l’errore complessivo in compiti di classificazione. Il riferimento di quegli anni sono due volumi pubblicati da Rumalhart e McClelland dal titolo Parallel Distributed Processing. In essi vengono proposti nuovi modelli di AI, detti connessionistici, che si oppongono a quelli simbolici degli anni precedenti.

Si ha in quegli anni un’esplosione di interesse intorno alle reti neurali, le cui applicazioni coprono svariati settori. Eppure anche questi modelli alla fine escono con difficoltà fuori dai laboratori di ricerca. Avviene lo stesso fenomeno degli inizi degli anni ‘80 con gli investimenti industriali. Vengono messi in commercio strumenti di sviluppo per realizzare reti neurali, ma le applicazioni restano in gran parte nei laboratori. Partono anche grandi iniziative nazionali, come in Italia il Programma Nazionale sul biochip, che vede enti di ricerca e aziende lavorare assieme in un progetto che vuole integrare assieme gli ultimi risultati delle scienze della vita con quelle dell’informazione.

Purtroppo anche questa ondata alla fine si esaurisce per le difficoltà pratiche di addestrare i modelli connessionistici nello sviluppo di applicazioni concrete. Inoltre viene messo in evidenza un difetto di tali modelli, quello di essere delle “scatole nere”, perché a differenza dei sistemi basati sulla logica, non sono in grado di spiegare i loro risultati.

Si comincia a far strada allora un rinnovato interesse per i metodi statistici e per i processi decisionali. Un modello che mette assieme le capacità di spiegazione ed è in grado di apprendere usando collaudate tecniche statistiche è quello delle reti bayesiane proposto da Judea Pearl. I cosiddetti modelli di Markov, utilizzati in statistica, permettono poi di modellare complessi processi decisionali e danno buoni risultati, per esempio, nell’analisi di segnali.

La fine degli anni ‘90 è caratterizzata dagli agenti intelligenti. Sistemi che interagiscono con un ambiente, sia esso fisico o virtuale, in grado di percepirlo attraverso dei sensori e di agire su di

esso in base a modelli decisionali, che usano tecniche probabilistiche e un concetto di razionalità basato sull’utilità attesa. Essi trovano grande applicazione nella robotica, negli ambiti finanziari e anche in medicina, ad esempio in compiti di monitoraggio di pazienti.

Le reti neurali, che avevano destato tanto interesse alla fine degli anni ‘80, si erano rivelate alla fine un modello difficile da utilizzare per applicazioni di una certa complessità. Fino al 2006, circa, era stato difficile addestrare reti costituite da tanti strati di neuroni, necessari per sviluppare rappresentazioni interne a diversi livelli di astrazione. Intorno al 2006 vengono proposti degli algoritmi che riescono a superare tali difficoltà, grazie anche a un contesto generale della tecnologia, e delle sue applicazioni, che innesca l’era dei big data. Inoltre, la disponibilità di enormi quantità di dati e di hardware ad alte prestazioni, basato su GPU – processori specializzati per le operazioni vettoriali usate nella grafica, – e sistemi ad alto parallelismo permettono, con opportuni algoritmi di addestramento, di realizzare reti profonde in grado di costruirsi rappresentazioni interne secondo una gerarchia di astrazioni a partire anche dai dati grezzi in ingresso.

Il cosiddetto Deep Learning, che è il protagonista degli anni 2000, si basa su tecniche statistiche che sfruttano grandi quantità di dati per far sì che una rete di neuroni con tanti strati sia in grado di dare risposte a problemi di classificazione e riconoscimento paragonabili, se non superiori a quelle degli esseri umani, apprendendo anche come realizzare in modo efficiente gli stadi di pre-elaborazione che si erano fino ad allora rivelati critici per il successo dei sistemi realizzati.

Le applicazioni tipiche del Deep Learning riguardano l’analisi di immagini, la visione artificiale, l’elaborazione del linguaggio naturale, l’analisi di sequenze in generale, come ad esempio quelle genomiche.

Grosse organizzazioni, fra le quali Google, Amazon e Microsoft, hanno investito molto su questa tecnologia e offrono reti pre-addestrate che il progettista può specializzare con una fase di addestramento fine per le proprie realizzazioni.

Ambiti ed esempi di utilizzo dell’AI

Sono molteplici gli esempi e gli ambiti di utilizzo delle tecniche di intelligenza artificiale in medicina sia in Italia che nel Mondo. Continuano a essere sviluppati infatti sistemi di supporto alle decisioni e sistemi esperti che utilizzano tecniche di Machine Learning o Deep Learning per l’analisi, la classificazione e la previsione di dati clinici. Gli ambiti di applicazione spaziano dall’organizzazione e management delle strutture sanitarie, alla diagnosi assistita da calcolatore caratterizzata da elevato livello di accuratezza e, in alcuni casi, di predizione, alla chirurgia robotica o assistita da calcolatore, alla analisi di dati bioinformatici, alla medicina di precisione.

Presso il Dipartimento di Biomedicina, Neuroscienze e Diagnostica avanzata (Bi.N.D.) dell’Università di Palermo è stato sviluppato BD4Breast, un sistema di supporto alle decisioni, integrante tecniche di intelligenza artificiale per l’analisi di big data clinici, operante nel dominio del tumore alla mammella. Lo strumento supporta il senologo durante il processo di diagnosi, analizzando le mammografie dei pazienti, segnalando le zone contenenti una lesione e suggerendo un grado di pericolosità della stessa secondo la classificazione ACR-Birads dell’American College of Radiology (un livello di severità tra 1 e 5). Trial sperimentali effettuati su dataset reali con il personale in formazione, mostrano un incremento delle percentuali di accuratezza del +12% per i casi positivi (lesioni maligne) e +15% per i casi negativi (pazienti sani) utilizzando il sistema BD4Breast. Quanto rilevato conferma i dati disponibili in letteratura sulla diagnosi del tumore alla mammella utilizzando strumenti basati su intelligenza artificiale, come nel caso di cmAssist^TM, sviluppato presso la University of Southern California negli Stati Uniti oppure come confermato dai molti studi condotti dalle società appartenenti alla galassia Google.

Sempre presso lo stesso Dipartimento è stato sviluppato, a nostra conoscenza primo nel suo genere, un sistema per la classificazione multi-livello del grado di severità della malattia di Crohn, un’infiammazione cronica intestinale che può colpire tutto il tratto gastrointestinale. Analizzando le immagini fornite da una tecnica diagnostica chiamata enterografia con risonanza magnetica, vengono estratte 20 caratteristiche e, tramite una macchina a vettori di supporto (SVM, dall’inglese support-vector machines) multiclasse, viene effettuata una classificazione a tre livelli del grado di severità della malattia di Crohn. I risultati raggiunti, adoperando la tecnica di convalida incrociata, sono paragonabili a quelli raggiunti da un operatore esperto del settore, confermando il trend che caratterizza l’uso delle tecniche di intelligenza artificiale in problemi clinici dove sono disponibili sufficienti quantità di dati.

L’Istituto di Calcolo e reti ad alte prestazioni (ICAR) del Consiglio Nazionale delle Ricerche è da tempo impegnato in progetti che applicano tecniche di intelligenza artificiale in problemi clinici. L’Istituto è stato coinvolto nello sviluppo del Fascicolo Sanitario Elettronico (FSE), lo strumento attraverso il quale il cittadino può̀ tracciare e consultare tutta la storia della propria vita sanitaria, condividendola con i professionisti sanitari per garantire un servizio più̀ efficace ed efficiente. L’Istituto è anche uno dei partner del progetto eHealthNet, che coinvolge partner pubblici e industriali per la realizzazione di un ecosistema software open-source per lo sviluppo di applicazioni per la sanità digitale volte a coprire l’intero spettro di funzionalità afferenti al settore salute, dalla diagnosi al follow-up, al monitoraggio di gestione. L’Istituto ha attivato anche una collaborazione con IBM per lo sviluppo di un sistema, basato su IBM Watson, capace di apprendere, creare modelli di un dominio, generare ipotesi e valutarle, allo scopo di supportare i processi decisionali, la soluzione di problemi complessi e la produzione di nuova conoscenza.

Di sicuro interesse è la linea di ricerca focalizzata sull’analisi di dati bioinformatici tramite tecniche di intelligenza artificiale. È stato infatti proposto un nuovo metodo “alignment-free” per la classificazione di DNA Barcode basato sia sulla sua distribuzione spettrale che su un algoritmo di clustering non supervisionato (Neural Gas). Il sistema consente un’efficace identificazione e classificazione delle specie, anche partendo da dati ottenuti da sequenziamento di bassa qualità. Nello stesso ambito è stata presentata una tecnica di classificazione di sequenze 16S “short-read” per l’analisi di dati metagenomici tramite tecniche di Deep Learning. La sequenza genica dell’rRNA 16S è dimostrato essere un DNA Barcode in grado di consentire la profilazione di comunità batteriche.

Limitazioni e problematiche

Seppure le applicazioni di intelligenza artificiale in sanità siano numerose e caratterizzate da risultati molto promettenti, l’AI in ambito medico è un’area che può essere ancora considerata non pienamente sviluppata. Quali sono le ragioni?

Una recente review coordinata da alcuni ricercatori dell’Imperial College di Londra (BMJ 2020;368:m689) ha messo in evidenza che nei casi di applicazione delle tecniche di Machine Learning e Deep Learning all’imaging medico esistono pochi studi prospettici e pochi studi randomizzati. La maggior parte degli studi sono così ad alto rischio di parzialità e possono, nella reale pratica clinica, discostarsi dai risultati presentati e, cosa molto più delicata, dagli standard richiesti dal contesto applicativo.

Come è noto, tutte le tecniche di Machine Learning e Deep Learning necessitano di grandi dataset, validati e/o annotati. Se da un lato le moderne tecnologie dell’ICT consentono di raccogliere e memorizzate dati provenienti da sorgenti diverse, dall’altro occorre un lavoro molto lungo di tipo multi-disciplinare per analizzare, annotare e validare questa grande quantità di dati. E questa rappresenta una fase molto critica sia per l’enorme quantità di tempo necessaria, sia per la difficoltà di interazione di tipo tecnico-scientifico tra personale medico ed esperti di intelligenza artificiale che in molti casi, per fortuna non sempre, esiste.

Cambiando prospettiva, allora possiamo provare ad analizzare come mai gli strumenti software in generale e quelli basati sull’intelligenza artificiale in particolare, non sono utilizzati nella odierna pratica clinica.

Come detto, un problema è sicuramente rappresentato, se si escludono pochissimi casi, dalla bassa disponibilità di dati verificati che impatta direttamente sulla robustezza e sulla capacità di generalizzazione degli strumenti basati su AI, cioè sulla capacità che gli strumenti hanno di fare delle buone prestazioni su nuovi dati, non inclusi negli esempi di addestramento. Per ridurre l’impatto della problematica sono state sviluppate alcune tecniche come la tecnica del transfer learning, del one-shot learning e dell’arricchimento artificiale dei dati che consentono di ottenere risultati accettabili anche se si hanno a disposizione pochi esempi di addestramento. Non è errato affermare che nei casi in cui si hanno a disposizione migliaia di esempi di addestramento, le tecniche di Machine Learning o di Deep Learning riescono ad avere prestazioni migliori di un esperto umano, mentre nel caso di malattie rare o poco diffuse, ove non esistono grandi dataset, lo strumento software basato su AI, con le conoscenze attuali, non ha prestazioni paragonali all’esperto umano.

Un altro problema sta sicuramente nelle modifiche che occorre apportare alla gestione dei processi clinici, la quale incontra, tra l’altro, resistenze significative da parte dei soggetti coinvolti, anche per via di alcune leggi vigenti a livello europeo nel settore. Indubbiamente l’inserimento di un sistema esperto o di un sistema di supporto alle decisioni nella pratica clinica ha un impatto non trascurabile sui protocolli e sulle procedure adottate da una struttura sanitaria, e, in ultimo, sul lavoro del personale medico coinvolto. Occorre rivedere il workflow a diversi livelli, modificarlo e uniformarlo alle nuove tecnologie. Ciò ha creato sicuramente dei ritardi e anche una certa resistenza da parte dei soggetti coinvolti, non sempre pronti e aperti all’uso delle nuove tecnologie.

Oltre a quanto esposto vi è anche l’aspetto normativo da considerare. Secondo la normativa vigente, i dispositivi medici sono suddivisi in quattro classi (classe I, IIa, IIb e III) in base a opportune regole di classificazione. I dispositivi di classe I, sono quelli che presentano minori rischi sotto il profilo della sicurezza, i dispositivi di classe III, sono quelli di maggiore criticità. Il mese prossimo (maggio 2020) entrerà in vigore il Regolamento UE 2017/745 del 5 aprile 2017 relativo ai dispositivi medici. Il nuovo regolamento definisce le regole che i dispositivi medici devono rispettare per essere introdotti e utilizzati in ambito clinico a livello europeo. Il suddetto regolamento per la prima volta disciplina esplicitamente i software operanti in ambito clinico affermando che “Il software destinato a fornire informazioni utilizzate per prendere decisioni a fini diagnostici o terapeutici rientra nella classe IIa, a meno che tali decisioni abbiano effetti tali da poter causare: (a) il decesso o un deterioramento irreversibile delle condizioni di salute di una persona, nel qual caso rientra nella classe III, (b) un grave deterioramento delle condizioni di salute di una persona o un intervento chirurgico, nel qual caso rientra nella classe IIb.”

Quindi un sistema di supporto alle decisioni rientra almeno nella classe IIa dei dispositivi medici, richiedendo un complesso processo di certificazione da parte di un Organismo Notificato prima della relativa marcatura CE. Con il nuovo Regolamento (articoli 61-82) il fabbricante è tenuto a: “precisare e motivare il livello di evidenze cliniche necessarie a dimostrare il rispetto dei pertinenti requisiti generali di sicurezza e prestazione. Il livello di evidenze deve essere appropriato in considerazione delle caratteristiche del dispositivo e della sua destinazione d’uso”.

Cosa implicano tali affermazioni se il dispositivo medico in questione è un software integrante tecniche di intelligenza artificiale le cui prestazioni, come è noto, dipendono dalla qualità dell’addestramento e dalla configurazione di nuovi dati analizzati? E se il sistema integra tecniche di rafforzamento dell’apprendimento (reinforcement learning) che possono modificare le prestazioni dello strumento utilizzato rispetto al prototipo sottoposto a certificazione?

Le risposte non sono affatto semplici. Un possibile meccanismo che potrebbe intervenire nei processi di certificazione dei dispositivi del futuro potrebbe essere basato su un set di esempi preventivamente concordati, comprendenti segnali, sintomi e immagini, che costituirebbero uno standard aperto e condiviso, su cui tutti i sistemi candidati alla certificazione dovranno operare con un livello minimo di prestazioni, in accordo con le diagnosi di medici esperti. Ciò potrebbe riguardare sia la fase di addestramento sia la fase di test e validazione. Una volta raggiunto il funzionamento di un dispositivo secondo uno standard richiesto, poiché la funzione e le prestazioni del software integrante tecniche di AI è in gran parte determinata da regole, parametri, pesi delle reti, questi dovrebbero essere codificati in modo univoco e protetti da cambiamenti accidentali tramite, ad esempio, funzioni di hash o mediante l’inserimento di un checksum. Il pacchetto unico costituito dai dati e dai modelli addestrati dovrà di conseguenza essere trattato come un elemento unico e inscindibile.

Nel caso di sistemi che integrano tecniche di apprendimento dinamico, i modelli potrebbero essere aggiornati non appena sono disponibili nuovi dati, riferiti a nuovi pazienti. Quindi potremmo immaginare che si debbano definire determinati limiti di comportamento che valgono per tutti i pazienti e fare in modo che l’adattamento rientri in precisi limiti definiti. Non appena il sistema raggiunge un nuovo livello di prestazioni, il nuovo pacchetto unico, costituito dai dati complessivi e dai nuovi modelli addestrati, sarà memorizzato in modalità protetta.

Quanto delineato solleva naturalmente molte domande, compresa quella che, in presenza delle stesse evidenze di ingresso, le decisioni terapeutiche dei singoli clinici possono divergere. Ciò avrà un impatto non trascurabile sulla natura degli esempi di addestramento e sulla creazione di uno standard di riferimento per l’apprendimento automatico.

Conclusioni

Le problematiche delineate fanno capire come mai l’utilizzo massivo e regolare dell’intelligenza artificiale nella pratica clinica sia tutt’altro che assodato. È pur tuttavia una strada già tracciata a livello di strategia nazionale, che si è cominciata a percorrere e che nei prossimi anni creerà ambienti di lavoro misti, con medici capaci di usare l’intelligenza artificiale e ingegneri capaci di comprendere come deve essere progettato e realizzato un sistema software operante in ambito clinico, quali prestazioni e quali rischi esso deve avere, al fine di neutralizzare i relativi pericoli e le loro conseguenze.