RICERCA

AI e lotta al cancro: perché è difficile usarla per le diagnosi



Indirizzo copiato

L’azienda Aignostics e la Mayo Clinic hanno sviluppato un modello, denominato Atlas, che ha battuto i modelli rivali in sei test su nove. La media per i test molecolari è stata del 44,9%, il miglior risultato ottenuto finora dall’intelligenza artificiale, ma gli scienziati affermano che per fare dei progressi significativi in termini di modelli c’è bisogno di serie di dati più ampie

Pubblicato il 23 gen 2025



Ai cancro Atlas

Scrutare nel corpo umano per trovare e diagnosticare il cancro significa individuare gli schemi. I radiologi usano i raggi X e la risonanza magnetica per illuminare i tumori, mentre i patologi esaminano al microscopio i tessuti di reni, fegati e altre aree alla ricerca di schemi che mostrino la gravità del tumore, la possibilità che particolari trattamenti funzionino e l’eventuale diffusione della neoplasia.

L’intelligenza artificiale dovrebbe essere in grado di aiutare a fare questo lavoro. “Il nostro lavoro è il riconoscimento dei modelli”, afferma Andrew Norgan, patologo e direttore medico della piattaforma di patologia digitale della Mayo Clinic. “Guardiamo il vetrino e raccogliamo le informazioni che si sono dimostrate importanti”.

Aignostics e Mayo Clinic hanno sviluppato un modello, denominato Atlas, che ha battuto i modelli rivali in sei test su nove.

Panoramica delle prestazioni medie, delle dimensioni del dataset di addestramento e delle dimensioni del modello dei diversi contendenti. Le prestazioni medie sono riportate nella Tabella 1. H-Optimus-0 [34] e Prov-GigaPath [41] sono i modelli con il maggior numero di parametri e Virchow2 [42] è il modello addestrato sul maggior numero di diapositive. Il modello Atlas presenta le migliori prestazioni medie e una dimensione intermedia del modello e del dataset di addestramento.

L’AI funziona bene nell’analisi visiva

L’analisi visiva è qualcosa in cui l’intelligenza artificiale è diventata piuttosto brava da quando i primi modelli di riconoscimento delle immagini hanno iniziato a decollare quasi 15 anni fa. Anche se nessun modello sarà mai perfetto, si può immaginare che un giorno un potente algoritmo riesca a cogliere qualcosa che sfugge a un patologo umano, o almeno ad accelerare il processo di diagnosi. Stiamo iniziando a vedere molti nuovi sforzi per costruire un modello di questo tipo – almeno sette tentativi solo nell’ultimo anno – ma rimangono tutti sperimentali. Cosa ci vorrà per renderli abbastanza validi da essere utilizzati nel mondo reale?

Il modello Atlas, ecco cosa può fare

All’inizio dell’anno 2025 sono stati pubblicati su arXiv i dettagli dell’ultimo tentativo di costruire un modello di questo tipo, condotto dall’azienda sanitaria di intelligenza artificiale Aignostics e dalla Mayo Clinic. Il documento non è stato sottoposto a revisione paritaria, ma rivela molto sulle sfide da affrontare per portare un simile strumento in contesti clinici reali.

Il modello, chiamato Atlas, è stato addestrato su 1,2 milioni di campioni di tessuto provenienti da 490.000 casi. La sua accuratezza è stata testata rispetto ad altri sei modelli di patologia AI leader del settore. Questi modelli competono su test condivisi, come la classificazione delle immagini del cancro al seno o la classificazione dei tumori, in cui le previsioni del modello vengono confrontate con le risposte corrette fornite dai patologi umani. Atlas ha ottenuto il punteggio più alto nella classificazione del tessuto canceroso del colon-retto, giungendo alla stessa conclusione dei patologi umani nel 97,1% dei casi.

Per un altro compito, invece, la classificazione dei tumori da biopsie di cancro alla prostata, Atlas ha battuto i punteggi più alti degli altri modelli con un punteggio di appena il 70,5%. La sua media su nove benchmark ha mostrato che ha ottenuto le stesse risposte degli esperti umani nell’84,6% dei casi.

Riflettiamo sul significato di questo dato. Il modo migliore per sapere cosa sta succedendo alle cellule cancerose nei tessuti è far esaminare un campione da un patologo, quindi questa è la performance con cui si misurano i modelli di intelligenza artificiale. I modelli migliori si avvicinano agli esseri umani in determinati compiti di rilevamento, ma sono in ritardo in molti altri.

AI cancro Atlas
(A) mostra le statistiche principali del dataset di addestramento. Il set di dati è stato ricavato da 1,2 milioni di vetrini patologici provenienti da 490k casi. Il dataset contiene i dati di oltre 70 tipi di tessuto/organo, oltre 100 tipi di colorazione e 7 tipi di scanner. I dati provengono dalla Mayo Clinic e dalla Charité – Universitätsmedizin Berlin. (B) mostra la distribuzione delle malattie neoplastiche rispetto a quelle non neoplastiche. (C) mostra la distribuzione dei gruppi di colorazione H&E, IHC e colorazioni speciali.

Quanto deve essere buono un modello per essere clinicamente utile?

“Il 90% probabilmente non è sufficiente. È necessario essere ancora più bravi”, afferma Carlo Bifulco, Chief Medical Officer di Providence Genomics e co-creatore di GigaPath, uno degli altri modelli di patologia AI esaminati nello studio della Mayo Clinic. Tuttavia, secondo Bifulco, i modelli di AI che non ottengono risultati perfetti possono ancora essere utili nel breve termine e potrebbero potenzialmente aiutare i patologi a velocizzare il loro lavoro e a formulare diagnosi più rapidamente.

Quali sono gli ostacoli che impediscono di migliorare le prestazioni? Il problema numero uno è rappresentato dai dati di formazione.

“Meno del 10% degli studi di patologia negli Stati Uniti sono digitalizzati”, spiega Norgan. Ciò significa che i campioni di tessuto vengono posti su vetrini e analizzati al microscopio, per poi essere archiviati in enormi registri senza mai essere documentati digitalmente. Anche se le pratiche europee tendono a essere più digitalizzate e sono in corso sforzi per creare set di dati condivisi di campioni di tessuto su cui addestrare i modelli di IA, non c’è ancora molto su cui lavorare.

a I dati di input del flusso di lavoro clinico (sfondo rosa) comprendono i WSI (a sinistra) e i corrispondenti referti patologici a testo libero (a destra). b La pipeline di classificazione delle immagini (sfondo verde) comprende la pre-elaborazione dei WSI e la classificazione delle immagini. La pre-elaborazione delle WSI prevede la suddivisione dell’immagine in patch con ingrandimento x10, con una dimensione di 224×224 pixel per adattarsi all’architettura ResNet34 pre-addestrata. La classificazione dell’immagine prevede una CNN, addestrata con un algoritmo di apprendimento a istanze multiple. La CNN comprende un backbone ResNet34 congelato (strati convoluzionali con pesi ImageNet) che produce vettori di caratteristiche con 512 elementi per patch; uno strato di embedding per ridurre il vettore di caratteristiche a 128 elementi; un classificatore che produce previsioni a livello di patch; una rete di attenzione, che impara a identificare le patch rilevanti e aggrega le previsioni a livello di patch per avere una previsione WSI globale. c La pipeline dei rapporti testuali analizza automaticamente i rapporti dei patologi, per identificare concetti significativi da usare come etichette deboli per la CNN.

Senza set di dati diversificati, i modelli di AI faticano a identificare l’ampia gamma di anomalie che i patologi umani hanno imparato a interpretare. Questo vale anche per le malattie rare, spiega Maximilian Alber, cofondatore e CTO di Aignostics. Cercando nei database pubblici campioni di tessuto di malattie particolarmente rare, “si trovano 20 campioni in 10 anni”, dice Alber.

Il lavoro svolto dalla Mayo Clinic

Intorno al 2022, la Mayo Clinic ha previsto che questa mancanza di dati di formazione sarebbe stata un problema. Ha deciso di digitalizzare tutte le proprie pratiche di patologia, insieme a 12 milioni di vetrini provenienti dai suoi archivi e risalenti a decenni fa (i pazienti avevano acconsentito al loro utilizzo per la ricerca). Ha ingaggiato un’azienda per costruire un robot che ha iniziato a scattare foto ad alta risoluzione dei tessuti, lavorando fino a un milione di campioni al mese. Grazie a questi sforzi, il team è riuscito a raccogliere 1,2 milioni di campioni di alta qualità utilizzati per addestrare il modello di Mayo.

Questo ci porta al problema numero due dell’utilizzo dell’intelligenza artificiale per individuare il cancro. I campioni di tessuto provenienti dalle biopsie sono minuscoli, spesso di un paio di millimetri di diametro, ma sono talmente ingranditi che le immagini digitali contengono più di 14 miliardi di pixel. Ciò le rende circa 287.000 volte più grandi delle immagini utilizzate per addestrare i migliori modelli di riconoscimento delle immagini dell’AI.

“Questo significa ovviamente un sacco di costi di stoccaggio e così via”, dice Hoifung Poon, un ricercatore AI di Microsoft che ha lavorato con Bifulco per creare GigaPath, che è stato pubblicato su Nature nel 2024. Ma questo obbliga anche a prendere decisioni importanti su quali parti dell’immagine utilizzare per addestrare il modello di intelligenza artificiale e quali cellule potrebbero sfuggire nel processo.

AI cancro Atlas
a-j, grafici a barre che confrontano i punteggi AUROC e AUPRC di Prov-GigaPath e dei metodi concorrenti su 18-biomarker pan-cancro (a,f), previsione di mutazioni a 5 geni specifica di LUAD (b,g), previsione di mutazioni a 5 geni pan-cancro (c,h), previsione di mutazioni a 5 geni specifica di LUAD su TCGA (d,i) e previsione di TMB pan-cancro (e ,j). k, grafico a barre che mostra l’AUROC per ciascun gene nella predizione delle mutazioni a cinque geni specifiche del LUAD su TCGA. a-k, i dati sono medi ± s.e.m. su n= 10 esperimenti indipendenti. Il valore P indicato indica la significatività di Prov-GigaPath rispetto al miglior approccio di confronto, con il test di Wilcoxon unilaterale. l, Confronto dei punteggi AUROC per i singoli biomarcatori nelle predizioni di 18 biomarcatori pan-cancro.

Come Mayo Clinic ha realizzato Atlas

Per realizzare Atlas, la Mayo Clinic ha utilizzato il cosiddetto metodo delle piastrelle, creando essenzialmente molte istantanee dallo stesso campione da inserire nel modello di intelligenza artificiale. Capire come selezionare queste mattonelle è un’arte e una scienza, e non è ancora chiaro quali siano i modi migliori per farlo.

In terzo luogo, c’è la questione di quali siano i parametri di riferimento più importanti per un modello di intelligenza artificiale che individua il cancro. I ricercatori dell’Atlas hanno testato il loro modello nell’impegnativo dominio dei benchmark di tipo molecolare, che prevede la ricerca di indizi da immagini di tessuti campione per indovinare cosa sta accadendo a livello molecolare.

Ecco un esempio: i geni di riparazione dei mismatch del corpo sono particolarmente preoccupanti per il cancro, perché catturano gli errori commessi quando il DNA viene replicato. Se questi errori non vengono individuati, possono favorire lo sviluppo e la progressione del cancro.

“Alcuni patologi potrebbero dire di avere una specie di sensazione quando pensano che qualcosa sia carente di mismatch-repair in base al suo aspetto”, dice Norgan. Ma i patologi non agiscono solo sulla base di questa sensazione. Possono eseguire test molecolari per ottenere una risposta più definitiva. E se invece, dice Norgan, potessimo usare l’intelligenza artificiale per prevedere cosa sta accadendo a livello molecolare? È un esperimento: Il modello AI potrebbe individuare i cambiamenti molecolari sottostanti che gli esseri umani non riescono a vedere?

In genere no, a quanto pare. O almeno non ancora. La media di Atlas per i test molecolari è stata del 44,9%. È il miglior risultato ottenuto finora dall’intelligenza artificiale, ma dimostra che questo tipo di test ha ancora molta strada da fare.

Secondo Bifulco, Atlas rappresenta un progresso incrementale ma reale. “La mia sensazione, purtroppo, è che tutti siano bloccati a un livello simile”, afferma. “Abbiamo bisogno di qualcosa di diverso in termini di modelli per fare davvero dei progressi significativi, e abbiamo bisogno di serie di dati più ampie”.

Articoli correlati

Articolo 1 di 4