Nuovo concept di motore di ricerca: AI come esperti umani

Il nuovo obiettivo dei ricercatori di Google è quello di creare un’AI in grado di diventare un “esperto di settore”, e rivoluzionare il modo di rispondere alle domande che gli utenti pongono ai search engine.

Quasi ogni navigazione in Internet inizia con una ricerca. I sistemi di indicizzazione di Google, e dei competitors con una fetta di mercato inferiore, rendono accessibile la conoscenza e le informazioni presenti in milioni di siti web con un motore che tenta di interpretare le chiavi di ricerca inserite dagli utenti, proponendo una selezione dei contenuti più appropriati. L’AI ha un ruolo determinante nell’analisi di questa grande quantità di dati e nella personalizzazione dei risultati delle ricerche, utente per utente. Ma le cose potrebbero cambiare a breve: un team di ricercatori di Google ha pubblicato un paper che mira a cambiare radicalmente i paradigmi sui quali si fonda il concetto stesso di ricerca online. Si tratta di un nuovo modello che porterà a una graduale evoluzione di BERT e GPT-3, gli algoritmi attualmente utilizzati da Google e da altri competitors nei motori di ricerca.

Indice degli argomenti:

La più grande innovazione dopo il PageRank

Alla base di questo nuovo approccio c’è l’idea di permettere all’AI di sviluppare modelli che possano essere comparati a esperti di settore. Le informazioni contenute online diventano, così, un enorme training set diviso per competenza e per settore, che permette di addestrare le macchine a comprendere le richieste degli utenti e a fornire direttamente informazioni precise ed accurate: non solo liste di siti, ma vere e proprie consulenze personalizzate.

Come funzionano i motori di ricerca

L’accuratezza nel fornire risposte è, già oggi, nettamente migliorata rispetto a quanto succedeva dieci o quindici anni fa. L’AI è utilizzata sia per comprendere le search queries, sia per assegnare un rank ai risultati, stabilendo così l’ordine di comparizione delle pagine web nelle pagine del motore di ricerca.

BERT è una delle innovazioni più importanti nel mondo del Natural Language Processing (NLP), ovvero il ramo dell’AI che si occupa della comprensione del linguaggio umano. L’algoritmo prevede una fase di check della comprensione della query, nella quale vengono omesse alcune parole della frase per calcolare un punteggio che valuta l’accuratezza dell’interpretazione. In questo modo, BERT è in grado non solo di comprendere le singole parole, ma anche di inserirle in un contesto che fa luce sul vero significato dell’intera frase. Nella fase successiva, l’obiettivo è quello di correlare tra loro frasi differenti, permettendo così a BERT di comprendere non solo una frase, ma anche un intero corpus complesso, formato da più frasi interconnesse.

Le capacità di comprensione di BERT sono notevoli ma, nonostante ciò, non è in grado di creare modelli affidabili che comprendono in profondità il mondo e gli argomenti analizzati. Le AI che afferiscono a questa categoria restano facili da ingannare e, soprattutto quando i dati su cui effettuare un training specifico non sono sufficienti, possono essere anche poco accurate.

Inoltre, i modelli standard utilizzati, ad oggi, dai motori di ricerca hanno diverse altre criticità importanti. Come suggerito da Yet Zhang, ad esempio, molti modelli non hanno performance accettabili nella ricerca di argomenti tecnici o specialistici. Questo è dovuto alla scarsità di dati sui quali effettuare il training. Altre difficoltà sono, invece, dovute alle differenze sostanziali di forma tra una lingua e l’altra. Le AI che analizzano dati in inglese hanno performance migliori di quelle che analizzano dati in altre lingue, creando una vera e propria disparità nei risultati di ricerca. In ultimo, c’è da menzionare l’enorme quantità di risorse computazionali richieste dai language models, che rappresenta un ostacolo non indifferente alla loro applicazione su larga scala nei motori di ricerca.

Episode 3 of Ask an Expert Now Online: Will Robots Take Our Jobs? [Video]

Il nuovo paradigma dei motori di ricerca

Ad oggi, neppure gli algoritmi più efficaci, in un ambito di analisi con molto materiale a disposizione per il training, rispondono alle domande degli utenti, ma generano liste di link che con molta probabilità includono le informazioni richieste. E se la risposta richiede l’accesso a più risorse contemporaneamente, tutto il lavoro di comprensione e analisi delle sorgenti è interamente affidato all’utente. E se fosse, invece, il motore di ricerca a fare questo lavoro, mettendo a disposizione una risposta diretta alle domande degli utenti? Un’intelligenza artificiale addestrata per diventare esperta in quasi tutti i settori dello scibile umano e che può essere consultata per avere risposte certe e immediate: questa è l’ambizione del gruppo di ricerca di Google.

Creare un esperto di settore artificiale è un obiettivo davvero sfidante. Per raggiungerlo bisogna possedere un modello scalabile e flessibile, in grado di acquisire una vera e propria competenza in tutti gli ambiti in cui viene applicato. Parliamo, quindi, di un’AI multi-purpose che non basa le sue decisioni su un sistema di pre-training tradizionale, di una struttura computazionale sviluppata per assorbire le conoscenze dai dati che le vengono sottoposti, fornendo risposte all’altezza di un esperto di settore umano. L’AI dev’essere in grado di incorporare in un’unica risposta completa, informazioni provenienti da più sorgenti, che possono differire per stile e anche per obiettivo.

Nel paper, i ricercatori di Google propongono un esempio che illustra efficacemente gli obiettivi proposti. Se un utente dovesse chiedere a questa nuova generazione di motori di ricerca:

“Quali sono i rischi e i benefici del bere vino rosso?”

l’AI dovrebbe essere in grado di confezionare una risposta coerente e autorevole, elencando rischi e benefici che provengono da un’analisi omogenea di fonti diverse e affidabili, che verranno citate.

Un altro aspetto chiave della ricerca è l’astrazione del modello da una specifica lingua. Le capacità di estrazione delle informazioni non devono essere influenzate dalla lingua nella quale esse sono scritte. I ricercatori ambiscono alla definizione di un modello unico che riesca a comprendere e metabolizzare a pieno i dati analizzati in inglese, così come quelli in ogni altra lingua.

Per massimizzare la scalabilità del sistema è necessario che l’apprendimento possa essere incrementale. Quindi, i nuovi dati aggiunti al training set non devono compromettere le performance dell’AI con i dati precedenti. Il concetto di “continual learning” viene esplorato da diversi anni: un buon numero di pubblicazioni accademiche hanno investigato a fondo il problema trovando una serie di soluzioni efficaci. Nel contempo va anche evitato il problema opposto, quello che riguarda il comportamento del sistema quando una serie di dati vengono rimossi dal data set. Questo è un dettaglio particolarmente rilevante quando si parla di privacy e diritto all’oblio.

Gli obiettivi e le sfide da affrontare per i ricercatori sono molteplici. Una risposta di qualità deve avere le seguenti caratteristiche:

autorevolezza
trasparenza
mancanza di pregiudizi
multi-prospettività
accessibilità

I problemi degli AI Experts

La prospettiva di un’AI Expert è tanto allettante quanto pericolosa per una serie di criticità e problemi a cui tutte le AI sono esposte.

Bias

Le AI sono soggette a pregiudizi, e questo non perché le AI siano cattive in sé, ma perché vengono addestrate su dati che contengono bias di ogni tipo. Nel NLP questa problematica è particolarmente accentuata ed è comune trovare AI che utilizzano un linguaggio razzista, sessista o comunque politicamente scorretto. Se introduciamo in questo contesto anche le profonde differenze sociali e culturali che dividono l’umanità, otteniamo un quadro molto complesso da gestire per una macchina che deve generare risposte affidabili a domande anche complesse.

Privacy

Un sistema complesso come quello appena descritto è in grado di estrarre e dedurre un considerevole numero di informazioni dai training set. Questo comporta anche un rischio per la privacy degli utenti che hanno generato i contenuti. Che succederebbe se un’AI mi citasse per rispondere a una domanda, esponendo, in tal modo, un dato riservato su di me e sulle mie ideologie? E ancora: chi è responsabile per un eventuale travisamento di dichiarazioni e articoli che afferiscono a un determinato soggetto?

Comparazione delle prospettive

Difficilmente la risposta a una domanda è univoca: abbiamo assistito recentemente a una serie di controversie importanti all’interno della comunità scientifica riguardo la pandemia da Covid-19. Nessun ambito, scientifico e no, è immune alle differenze prospettiche degli esperti, e raggiungere una conclusione univoca è un’impresa molto complessa anche per un ascoltatore umano particolarmente preparato. Un’AI Expert dev’essere in grado di fornire risposte comparative, tenendo conto di tutte le prospettive autorevoli presenti nei dati analizzati.

Affidabilità

Stabilire l’affidabilità delle fonti è un compito arduo anche per un esperto di settore umano. Le bolle di conoscenza favoriscono alcune verità rispetto ad altre e potrebbero fornire una visione molto distorta della realtà. Un’AI Expert potrebbe generare disinformazione e fake news che sarebbero ancora più complesse da distinguere da quelle attualmente presenti online. Se l’AI viene considerata affidabile, lo sarà anche tutto quello che dice in risposta alle domande dell’utente.

Conclusioni

Raggiungeremo mai un livello di affidabilità tale per le AI, tanto da superare quello di un esperto di settore umano? Riusciremo mai a fidarci a tal punto delle macchine? E sarebbe giusto farlo?

Sostituire un esperto di settore con un sistema di apprendimento automatico richiede un salto tecnologico considerevole. Lo stato dell’arte attuale delle tecnologie non consente ancora di far fronte a tutte le sfide e le problematiche esposte dal team di ricerca di Google.

Questa evoluzione dei motori di ricerca apre a nuove prospettive e a nuove applicazioni per l’AI ma, con tutta probabilità, è ancora molto, molto lontano il momento in cui la razza umana lascerà alle macchine la gestione della conoscenza e la sua divulgazione.

Un nuovo concept di search engine: l’AI sostituisce gli esperti umani

La più grande innovazione dopo il PageRank

Come funzionano i motori di ricerca

Il nuovo paradigma dei motori di ricerca

I problemi degli AI Experts

Conclusioni

Articoli correlati

Un nuovo concept di search engine: l’AI sostituisce gli esperti umani

La più grande innovazione dopo il PageRank

Come funzionano i motori di ricerca

Il nuovo paradigma dei motori di ricerca

I problemi degli AI Experts

Conclusioni

Articoli correlati

Codice Rss

Codice Rss