Riconoscimento vocale: i progressi nel settore healthcare

L’assistenza sanitaria si profila come il campo dove si daranno battaglia alcuni grandi e piccoli nomi della Silicon Valley. Ecco due esempi: la Dragon Ambient Experience (DAX), in cui un dispositivo intelligente e un paziente hanno una conversazione naturale e Euphonia, macchina che fornisce alle persone che interagiscono con il paziente affetto da SLA delle “didascalie dal vivo”.

L’intelligenza artificiale, finalizzata al miglioramento e al monitoraggio della salute umana, sta raggiungendo dei risultati via via più performanti, obiettivi che solo qualche anno fa sarebbero parsi chimere. E quando tale tecnologia “intelligente” lavora in abbinamento con altre innovazioni del campo sanitario – si pensi ai macrosettori della telemedicina e della chirurgia robotica – i risultati diventano, a volte, clamorosi. Siamo in una fase in cui è possibile affermare che l’assistenza sanitaria (healthcare) si profila come il prossimo campo di battaglia di alcuni grandi e piccoli nomi che pullulano nella Silicon Valley, tutti lì pronti a contendersi una fetta di mercato.

Tra le tendenze più importanti di questo settore, la tecnologia vocale di intelligenza artificiale – che, potenzialmente, può aiutare sia operatori sanitari e pazienti – è indubbiamente tra le più curiose (ma anche tra le più efficaci). La rinomata rivista statunitense “MIT Technology Review” affronta alcuni casi in cui la tecnologia vocale abbinata all’intelligenza artificiale può farci sentire “più umani”, insegnando al contempo alla stessa intelligenza artificiale a imparare a comunicare un po’ più come “una persona” (migliorando l’efficienza stessa della macchina). Vediamone due esempi.

Indice degli argomenti:

Healthcare: una conversazione naturale fra la macchina e il paziente

Nel panorama healthcare vi è stato un grosso problema, nell’ultimo decennio, con l’adozione dei sistemi sanitari elettronici, ove tutta l’assistenza sanitaria è stata largamente digitalizzata. Con la Dragon Ambient Experience (DAX), ad esempio, siamo di fronte all’acquisizione di una “capacità ambientale” della macchina, in cui un dispositivo “intelligente” e un paziente hanno una conversazione naturale. E sulla base di questa conversazione naturale, DAX converte “l’oggetto della conversazione” in una nota clinica di alta qualità per conto del medico che assiste il paziente. Si pensi che DAX – tecnologia che è la spina dorsale dell’assistente vocale di Apple, Siri – è stato progettato da Nuance, una società di proprietà di Microsoft (che spese quasi 20 miliardi di dollari per la sua acquisizione nel 2021!). Lo scenario di DAX in campo sanitario vede la macchina interagire con il paziente, con il medico al computer nell’atto di prendere nota e stilare, ad esempio, una anamnesi.

Ma DAX crea anche note cliniche, diagnosi e valutazioni mediche. E questo crea un’esperienza “impersonale” in cui il paziente non si sente come se una macchina “intelligente” si stesse effettivamente concentrando su di lui. La macchina, in poche parole, fa una sorta di “lavoro amministrativo”: il suo sistema registra tutto ciò che viene detto, lo trascrive e lo “etichetta” con una serie di variabili. Questo non è un mero riconoscimento vocale. Si tratta, in realtà, di comprensione del linguaggio naturale (Nuance ne è leader mondiale), in cui si prende il contesto di ciò che c’è nella trascrizione, di ciò che è stato discusso, la conoscenza di ciò che è rilevante dal punto di vista medico e anche di ciò che non è rilevante dal punto di vista medico.

Dragon Ambient eXperience

Video: DAX

Viene scritta una nota clinica basata su alcuni di quegli input chiave che erano nella registrazione. Sotto il suo “cofano”, DAX utilizza l’apprendimento profondo (Deep Learning), che è fortemente dipendente dai dati. Il sistema è addestrato su una serie di diverse interazioni tra pazienti e medici, che attengono fortemente alle singole specialità mediche. Inoltre, DAX apprende sempre di più a ogni incontro con il singolo paziente, dimostrando una memorizzazione eccezionale al pari di quella umana. Memorizzazione che permetterà, in breve tempo, allo specialista medico di procedere con interventi mirati che miglioreranno la salute del paziente in trattamento (una sorta di elaborazione in tempo reale delle informazioni).

AI e healthcare: il progetto Google Euphonia

Sfortunatamente, queste tecnologie vocali non sempre funzionano alla perfezione, soprattutto con le persone che hanno problemi di linguaggio, siano essi handicap o meno. E questa è una lacuna da affrontare e da colmare. Indubbiamente, rendere la tecnologia di assistenza vocale più accessibile a chiunque può aiutare le persone che hanno problemi di linguaggio a essere più indipendenti nella loro vita quotidiana. Su questo campo, Google è tra i colossi che più ha investito e investe per il miglioramento della tecnologia di healthcare. Per far funzionare tale tecnologia, Google ha bisogno che le persone – che hanno problemi a farsi capire dagli altri – registrino un certo numero di frasi. Successivamente, un team preposto analizza quei campioni di discorso “preregistrato” come esempi per addestrare il modello di apprendimento automatico (Machine Learning), affinché comprenda meglio il loro modo di parlare.

Il progetto è iniziato nel 2018, quando Google iniziò a lavorare con una non-profit cercava una cura per la SLA, malattia del sistema nervoso che colpisce le cellule nervose presenti nel cervello e nel midollo spinale, portando spesso a impedimenti nel parlare. Uno dei progetti di Google è quello di registrare un grande quantitativo di dati da persone affette da SLA per studiare la loro malattia. E come parte di questo programma, si partiva con l’analisi del decorso della malattia e dell’impatto – o meno – che avrebbe avuto sul modo di parlare nel corso del tempo. Google ebbe l’idea di collaborare con la non-profit ALS TDI^[1] per vedere se fosse stato possibile utilizzare l’apprendimento automatico per rilevare la SLA in anticipo. Ma i ricercatori di Google andarono oltre. Invece di cercare solamente di rilevare se qualcuno avesse la SLA o meno, Google puntò ad aiutare il paziente a comunicare più facilmente con gli altri, trascrivendo automaticamente quello che stava dicendo.

Da circa un migliaio di persone reclutate nel 2019, la ricerca è arrivata al milione di pazienti interessati. Il nome di questo progetto di Google è Euphonia^[2]: fondamentalmente, la macchina fornisce alle persone che interagiscono con il paziente affetto da SLA delle “didascalie dal vivo”, in modo che ciò che il paziente dice viene trascritto su un monitor o sul display di un dispositivo, a disposizione dei destinatari della comunicazione. In pratica, le persone leggono e comprendono ciò che, normalmente, sarebbe stato difficile anche solo captare. È uno strumento molto utile, ad esempio, quando si sta facendo una presentazione a una platea o quando si parla pubblicamente, con una piattaforma che cattura in tempo reale le parole in modo che possano essere “proiettate” a coloro che stanno ascoltando. Inoltre, Euphonia sincronizza ciò che viene sottotitolato con Google Home, puntando a uno straordinario abbinamento con la domotica a casa del paziente.

Video: Progetto Euphonia Google

Project Euphonia | Improved Automatic Speech Recognition | Google Research

Avere una casa “intelligente”, che può comprendere il suo inquilino affetto da SLA, dà davvero più libertà e autonomia di quanto si possa immaginare. Il paziente può, ad esempio, accendere e spegnere le luci, aprire la porta d’ingresso, ottenere informazioni dall’assistente vocale e controllare gli spazi esterni con la videosorveglianza domestica. In pratica, può continuare a sentirsi come una normalissima persona e non come un paziente che ha bisogno di cure e attenzioni particolari per ventiquattro ore al giorno. Il successo di Euphonia è la personalizzazione del riconoscimento vocale, tutto focalizzato su una singola persona. Un sistema che si “rende conto” quando i miglioramenti tendono a scomparire, sia con l’avanzare dell’età che con il peggioramento della malattia. Un sistema, inoltre, che riconosce quando la persona indossa una mascherina oppure subisce cali di voce. La questione aperta è quanto robusti siano questi modelli e quanto si possono adattare a questi tipi di cambiamenti.

Conclusioni

Per quanto riguarda i problemi di tale tecnologia di riconoscimento vocale applicata in ambito healthcare, primo fra tutti c’è il problema linguistico. I sistemi di riconoscimento vocale sono in gran parte addestrati su voci di persone “occidentali”, in lingua inglese. La sfida sarà non solo di estendere il range d’azione ad altre lingue, ma anche ai dialetti (abitualmente parlati “come lingua primaria”, ad esempio, da milioni di anziani nel mondo). Il livello di qualità delle tecnologie a riconoscimento vocale si abbassa quando ci si allontana dalle lingue “primarie” che vengono utilizzate e dai prodotti che più comunemente possiedono questi dispositivi di riconoscimento vocale incorporati.

Quindi, man mano che ci si sposta verso paesi in cui vi sono lingue meno parlate di altre, i dati diventano ancora più difficili da ottenere. E così sarà necessaria una spinta maggiore per assicurarsi di mantenere un livello ragionevole di equità e di qualità nelle applicazioni di healthcare.^[3]

Note

ALS TDI and Google collaborate to bring AI to ALS. ALS TDI. https://www.als.net/news/als-tdi-and-google-collaborate-to-bring-ai-to-als/ ↑
Project Euphonia. Google. https://sites.research.google/euphonia/about/ ↑
Podcast: How AI is giving a woman back her voice. MIT Technology Review. https://www.technologyreview.com/2021/12/08/1041544/podcast-how-ai-is-giving-a-woman-back-her-voice/ ↑

Riconoscimento vocale: i progressi nel settore healthcare

Healthcare: una conversazione naturale fra la macchina e il paziente

Video: DAX

AI e healthcare: il progetto Google Euphonia

Video: Progetto Euphonia Google

Conclusioni

Articoli correlati

Google Cloud Next '23, tutte le novità AI annunciate

Come ChatGPT sta influenzando il settore dell’healthcare

Codice Rss

Codice Rss