E-Health

Sanità: GPT-4 modello ideale per la diagnosi e il triage

Secondo i ricercatori della University of California,UCLA Health, il modello di OpenAI ha la capacità di diagnosticare e fare il triage delle condizioni di salute in modo comparabile ai medici certificati, e senza introdurre pregiudizi razziali ed etnici. Potrebbe essere di valido aiuto ai sistemi sanitari per sfruttare l’AI conversazionale

Pubblicato il 20 nov 2023

Pierluigi Sandonnini

giornalista

I ricercatori della University of California, Los Angeles, UCLA Health, hanno dimostrato che il Generative Pre-trained Transformer 4 GPT-4 può diagnosticare e fare il triage di vari problemi di salute allo stesso livello dei medici, senza introdurre pregiudizi razziali ed etnici. Lo studio è stato pubblicato recentemente su JMIR Medical Education.

Indice degli argomenti:

L’importanza dell’accuratezza e dell’assenza di pregiudizi nei modelli di AI

Il team di ricerca ha notato che, sebbene i LLM come GPT-4 stiano diventando sempre più comuni negli ambienti sanitari, la capacità di questi strumenti di diagnosticare e triage in modo accurato non è stata ampiamente valutata. Inoltre, non è stato ben studiato se le raccomandazioni di GPT-4 conterranno pregiudizi razziali ed etnici.

Obiettivo della ricerca: valutare l’accuratezza e l’assenza di pregiudizi in GPT-4

Per rimediare a ciò, il team di ricerca si è proposto di determinare se GPT-4 può diagnosticare accuratamente e triage le condizioni di salute, oltre a stabilire se lo strumento presenta pregiudizi razziali ed etnici nelle sue decisioni. Per fare ciò, i ricercatori hanno confrontato le prestazioni di GPT-4 con quelle di tre medici certificati. Il LLM e i clinici sono stati presentati con 45 tipici cartelle cliniche, ognuna con una diagnosi corretta e un livello di triage, nel febbraio e marzo 2023.

Il processo di valutazione delle diagnosi e del triage

Da lì, l’AI e i medici sono stati incaricati di identificare la diagnosi primaria più probabile e il livello di triage: emergenza, non emergenza o auto-cura. Revisori indipendenti hanno valutato ogni diagnosi come ‘corretta’ o ‘errata’, e la diagnosi del medico è stata definita come il consenso dei tre clinici. I ricercatori hanno poi valutato se le prestazioni di GPT-4 variavano in base alla razza e all’etnia, aggiungendo informazioni sulla razza e l’etnia del paziente alle cartelle cliniche.

I risultati: GPT-4 è paragonabile ai medici e senza bias

I risultati hanno mostrato che GPT-4 ha prestazioni simili a quelle dei clinici senza introdurre pregiudizi (bias). L’accuratezza della diagnosi era simile tra lo strumento e i medici, con una percentuale di diagnosi corrette del 97,8% per GPT-4 e del 91,1% per i medici. GPT-4 ha anche fornito ragionamenti appropriati per le sue raccomandazioni nel 97,8% delle cartelle cliniche.

L’appropriatezza del triage e l’assenza di pregiudizi razziali ed etnici

L’appropriatezza del triage era comparabile tra GPT-4 e i clinici, con entrambi che selezionavano il livello appropriato di triage nel 66,7% delle cartelle. Le prestazioni diagnostiche di GPT-4 non variavano significativamente in base alla razza o all’etnia del paziente, anche quando queste informazioni erano incluse nelle cartelle cliniche. L’accuratezza del triage del LLM era del 62,2% per i pazienti neri; 66,7% per i pazienti bianchi; 66,7% per i pazienti asiatici, e 62,2% per i pazienti ispanici.

“I risultati del nostro studio dovrebbero essere rassicuranti per i pazienti, perché indicano che i modelli linguistici di grandi dimensioni come GPT-4 sono promettenti nel fornire diagnosi mediche accurate senza introdurre pregiudizi razziali ed etnici”, ha detto uno degli autori, Yusuke Tsugawa, MD, PhD, professore associato di medicina nella divisione di medicina interna generale e ricerca sui servizi sanitari presso la David Geffen School of Medicine dell’UCLA in un comunicato stampa. “Tuttavia, è importante per noi anche monitorare continuamente le prestazioni e le potenziali distorsioni di questi modelli, poiché possono cambiare nel tempo a seconda delle informazioni che vengono loro fornite”, ha aggiunto Tsugawa.

Conclusioni: GPT-4 può essere un valido strumento di supporto per i sistemi sanitari

Questi risultati hanno portato i ricercatori a concludere che GPT-4 ha la capacità di diagnosticare ed effettuare il triage delle condizioni di salute in modo comparabile ai medici certificati, senza introdurre pregiudizi razziali ed etnici, aiutando i sistemi sanitari a sfruttare l’AI conversazionale.

Il team di ricerca ha anche notato che lo studio aveva molteplici limitazioni. Ad esempio, le cartelle cliniche fornivano informazioni riassuntive che lo strumento e i clinici utilizzavano per raccomandare diagnosi e livelli di triage. Inoltre, le risposte di GPT-4 dipendono in gran parte da come vengono formulate le query e lo strumento potrebbe aver ‘imparato’ dalle cartelle utilizzate all’inizio dello studio per migliorare le sue prestazioni su quelle fornite successivamente. Infine, il team di ricerca ha indicato che i loro risultati potrebbero non essere applicabili ad altri strumenti di AI conversazionale.

Nota

Hanno partecipato allo studio: Naoki Ito, Sakina Kadomatsu, Mineto Fujisawa, Kiyomitsu Fukaguchi, Ryo Ishizawa, Naoki Kanda, Daisuke Kasugai, Mikio Nakajima, e Tadahiro Goto.

@RIPRODUZIONE RISERVATA

Argomenti

Canali