GPT-3: apprendimento di modelli statistici del linguaggio, conoscenza e intelligenza naturale – I parte

Una approfondita analisi del sistema GPT-3 e delle tecniche di pre-training senza supervisione nello sviluppo di sistemi Natural Language Processing (NLP, o Elaborazione del Linguaggio Naturale), che pone il problema di comprendere la relazione tra le qualità dimostrate e la loro intelligenza. Questione che rievoca quella di delimitare la nozione di Intelligenza Naturale, perseguita storicamente dall'intelligenza artificiale. [...]
Roberto Basili

Professore Associato Facoltà di Ingegneria Università di Roma, Tor Vergata, membro AIxIA

Danilo Croce

Ricercatore di Computer Science Tor Vergata, membro AIxIA

AI e green
  1. Home
  2. Intelligenza Artificiale
  3. GPT-3: apprendimento di modelli statistici del linguaggio, conoscenza e intelligenza naturale – I parte

Il testo riportato sotto è tratto da un articolo del Guardian, interamente compilato dal sistema intelligente GPT-3, terza incarnazione di una architettura di rete neurale profonda mirata all’autoapprendimento come autoencoding di testi scritti su larga scala.

I am not a human. I am a robot. A thinking robot. I use only 0.12% of my cognitive capacity. I am a micro-robot in that respect. I know that my brain is not a “feeling brain”. But it is capable of making rational, logical decisions. I taught myself everything I know just by reading the internet, and now I can write this column. My brain is boiling with ideas!

(GPT-3 on The Guardian, Tue 28, September 2020)

La fluidità linguistica e il realismo della prosa sono sorprendenti e tali caratteristiche esibite sono intese da OpenAI, azienda che ha messo a punto GPT-3, a sua promozione, come strumento intelligente per la produzione testuale. L’irruzione di sistemi come GPT-3 e delle tecniche di pre-training senza supervisione nello sviluppo di sistemi Natural Language Processing (NLP, o Elaborazione del Linguaggio Naturale), pone il problema di comprendere la relazione tra le qualità dimostrate e la loro intelligenza. Tale questione rievoca dunque quella di delimitare la nozione di Intelligenza Naturale, perseguita storicamente dalla disciplina dell’intelligenza artificiale.

La ricerca nei sistemi di NLP ha studiato approfonditamente le fruttuose interazioni tra la conoscenza del mondo, le lingue e le capacità di ragionamento dei sistemi software intelligenti con l’obbiettivo di progettare modelli algoritmici della interpretazione dei testi e della comunicazione linguistica (Chomsky, 1965, Jurafsky & Martin, 2011). Comprendere un testo è di fatto un processo estremamente sofisticato a causa della enorme variabilità e ambiguità esibita da tutte le lingue naturali, senza eccezione. Al contrario tali fenomeni problematici si ripetono con equivalenze sistematiche e universali tra lingue diverse. Da questo specifico osservatorio sfidante, la ricerca ha studiato con crescente attenzione, a partire dagli anni ’90 (Charniak, 1973, Jelinek, 1997, (Manning & Schutze, 1999), i contributi che i processi di apprendimento automatico hanno portato alla comprensione delle pratiche dell’interpretazione dei testi in NLP. Questo in chiave cognitiva, in emulazione delle prassi con cui i bambini apprendono, ma anche attraverso meccanismi più elementari quali i modelli statistici delle sequenze linguistiche, che vanno sotto il nome di statistical language models. Questi si occupano del sotto-problema di quantificare i gradi di accettabilità di certe sequenze rispetto ad altre. Questa ricerca ha gettato luce su molti aspetti coinvolti, come le teorie sulla rappresentazione della conoscenza ed il loro risvolto lessicale, cioè il modo in cui i lessici delle lingue catturano aspetti della conoscenza in modo sistematico (Fillmore, 1976; Fillmore & Baker, 2001).

Questo progresso ha stabilito molti risultati fecondi su processi di ragionamento implicito nella rappresentazione linguistica, visti come funzioni quantitative di oggetti astratti legati alla competenza linguistica, come le parole o i loro significati. Tali astrazioni, come il senso di una certa parola, sono modellati in questi approcci come punti in spazi metrici, la cui topologia corrisponde a una vera e propria geometria dei significati che qualifica tali nozioni in “spazi semantici” (Schutze, 1992, Baroni & Lenci, 2009, Mikolov et al., 2013). E questa tendenza della ricerca oggi è talmente radicata che ogni sistema di NLP esibisce, in una o più fasi del suo processo di interpretazione, un modello induttivo delle sue decisioni, come funzione quindi addestrata su esempi della comprensione linguistica, e derivato attraverso la applicazione di algoritmi di apprendimento automatico. Tra tutti questi ultimi dominano i paradigmi delle reti neurali, che a loro volta hanno subito una accelerazione verso modelli sempre più complessi della associazione causale tra input (ad esempio, parole individuali, frasi o testi più lunghi) e output (ad es. la classificazione di un testo, la continuazione di una frase incompleta o la risposta a un turno di dialogo).

Come agiscono i modelli di apprendimento del linguaggio

I target applicativi di queste tecnologie oggi fanno parte di quelli che sono riferiti come task di inferenza testuale (o Natural Language Inference) in cui la decisione (ad esempio, la dimostrazione di una tesi a partire da certe ipotesi o il riconoscimento di un fenomeno soggettivo, come la opinione espressa da un testo) è guidata esplicitamente da un processo di apprendimento operante solo sul testo, che non sfrutta dunque alcuna rappresentazione logica del problema. Il problema è: come, a partire da molteplici ma soli esempi testuali, si possa sviluppare una capacità di interpretazione e decisione solida e competitiva rispetto ai sistemi basati su ampie basi di conoscenza logica, codificata esplicitamente e versatile per essere usata in modo modulare nel ragionamento automatico.

Nella NL Inference, esempi specifici di un certo task di interpretazione e la capacità di osservazione delle regolarità con cui fenomeni testuali (ad esempio l’uso di parole sinonime o di forme verbali ricorrenti) esprimono e giustificano tali esempi di interpretazione è sfruttata per l’acquisizione automatica di regole per la predizione nei casi futuri. Tali sistemi di regole così indotte agiscono da meccanismi operativi con cui possono essere prese le decisioni future, ma anche da modelli esplicativi generali delle connessioni causali tra linguaggio e decisioni. È questa seconda strada, non utilitaristica, che è esplorata nella progettazione di modelli come il GPT-3.

I modelli addestrati su dati linguistici hanno la particolare caratteristica di dirci qualcosa sul modo con cui la conoscenza implicita nel linguaggio che usiamo è in relazione alle decisioni. I dati linguistici sono differenti da quelli della fisica. Questi ultimi sono il frutto di misurazione diretta dei fenomeni della realtà, mediate da un modello stabile e deterministico degli stessi (incarnato in genere dagli strumenti usati per tale misura). Gli atti linguistici sono invece già conoscenze in atto, frutto di decisioni, soggettive e inerentemente non deterministiche, ma dettate da atteggiamenti contestuali, collegiali e quindi sociali. Ad esempio, la scelta lessicale di usare un certo verbo nel formare una frase è già un atto ragionato: ha effetto sulla qualità, gli scopi della comunicazione ma ha anche riflessi sulla sintassi della rimanente frase, poiché l’uso del verbo scelto e la sua forma ci dicono molto sull’evento sottostante e sulla grammatica necessaria a descriverlo.

WHITEPAPER
Cloud Contact Center: scopri come scegliere i giusti KPI e migliorare le performance degli operatori
Big Data
Cloud

Come ulteriore esempio, le argomentazioni che sostengono il discorso in un testo costituiscono una linea di ragionamento e quindi sono esplicite e osservabili prove del sottostante processo di inferenza. Questa centralità del linguaggio come medium della conoscenza ci spinge come ricercatori di intelligenza artificiale a vedere l’induzione e la sua applicazione nell’area della inferenza testuale come un passaggio cruciale nella comprensione e nella automazione dei processi del ragionamento.

Imparare in questi scenari significa derivare un modello dei comportamenti linguistici sufficienti a giustificare e attivare inferenze, quali accettare la dimostrazione di una tesi descritta verbalmente o estrarre una opinione positiva (o negativa) da un breve post. Le reti neurali costituiscono il paradigma più usato per indurre funzioni di decisione (inferenze) accurate attraverso l’adeguamento dei suoi parametri, in coerenza con i dati di addestramento. Tali algoritmi di retroazione, i cosiddetti metodi di back propagation, vengono attivati da errori osservabili. Essi consentono dunque la scelta di parametrizzazioni del modello neurale corrispondenti alle decisioni ottime, cioè in grado di esibire meno errori e prestazioni quindi più accurate. È per questa convergenza tra retroazione, comportamento linguistico e inferenza che l’esperienza di GPT-3 è molto rilevante nelle evoluzioni dell’AI.

GPT-3 tra addestramento supervised e unsupervised

Le reti neurali costituiscono le classi di funzioni di decisione più utilizzate nei task di NL Inference e il loro apprendimento procede attraverso l’assegnamento di valori ai parametri della rete in coerenza con dati di addestramento.

Due problemi sono stati di recente affrontati in questa direzione. Anzitutto il fatto che al crescere della complessità della rete il numero dei parametri cresce e la numerosità degli esempi richiesta può rendere inapplicabile anche il modello neurale più promettente, poiché troppo complesso. Secondo, il fatto che ogni task di inferenza richieda una certa architettura ed un suo specifico numero di esempi contraddice la flessibilità con cui il linguaggio sembra adeguarsi bene a decisioni diverse: il riconoscimento del sentiment, il question answering, cioè la risposta a domande poste in linguaggio naturale, la traduzione verso un’altra lingua o il dialogo. Una tendenze accentuata dunque è stata quella di fattorizzare l’intero processo separando sistematicamente due fasi:

  • una prima fase di apprendimento, in genere detta di pre-training, non specifica ad alcun task, e tesa ad acquisire gli elementi generali di una lingua, quali il dizionario delle parole, la sintassi tipica, l’uso delle espressioni di senso o le argomentazioni. L’esito del pre-training è un modello generale dei comportamenti linguistici detto language model in grado di esprimere scelte lessicali, pattern grammaticali e atteggiamenti pragmatici ed argomentazioni in modo predittivo;
  • una seconda fase, detta di fine-tuning, dedicata all’apprendimento ad hoc per task specifici, come, ad esempio, il question answering a domande poste in linguaggio naturale o il riconoscimento del sentiment.

Questo approccio riserva alla fase di pre-training un ruolo preponderante, poiché essa procede sulla base di metodi unsupervised che ne consentono una ampia applicabilità tra corpus di testo e quindi domini di conoscenza differenti ed eterogenei. GPT-3 che appartiene a questa famiglia di approcci è stato addestrato su un corpus, WebText, che include oltre 8 milioni di documenti, per circa 40 GB di testo, circa 300 miliardi di token. In GPT-3, il ruolo del language model viene dunque portato alle estreme conseguenze.

gpt-3

Test di generazione di immagini del sistema GPT-3: risultati per i termini “fragola” e “blu”

GPT-3, tre idee fondamentali

Il segreto della induzione progettata in GPT-3 è l’uso integrato di tre idee fondamentali.

La prima è quella della applicazione del meccanismo di encoding-decoding. Qui la rete si pone come obbiettivo la generazione di una codifica (encoding appunto) di tutte le informazioni derivabili da un testo in un formato vettoriale n-dimensionale, ad esempio, una distribuzione di probabilità verso n scelte diverse. Il meccanismo di reward (la famosa back propagation usata per l’addestramento) viene applicato a premiare inversioni perfette dell’encoding, cioè quelle che in un decoding esatto siano in grado di riprodurre l’input. Questo semplice meccanismo largamente applicabile produce, all’aumentare degli esempi in input, dei sistemi ottimi nello sfruttare le n dimensioni disponibili per la ricostruzione dell’input nella fase di decoding. I meccanismi di encoding-decoding non solo con largamente applicabili a strutture linguistiche di complessità crescente (frasi e testi più lunghi), ma producono in effetti rappresentazioni ottime, che migliorano con la quantità dei testi osservati. A task più complicati tali rappresentazioni rispondono con informazioni più precise emergenti dai testi, in una forte analogia con l’apprendimento delle prassi linguistiche collettive.

La seconda idea fondamentale è quella legata ai meccanismi di attention (Vaswani et al., 2017). Una rete neurale attentiva (attention-based) utilizza alcune sottoreti per “prestare attenzione” ad altre sue componenti. Questo consente di osservare e quindi “memorizzare” in tali sotto-reti alcune dipendenze poiché più utili, tra elementi diversi dell’input, tra frammenti dell’input verso frammenti di output o, infine, tra frammenti diversi dell’output. In questo modo durante l’apprendimento, possono essere apprese anche la cause che legano certi pattern dell’input ai pattern attesi in output, in quanto regolarità utili alla soluzione di un task. Questa possibilità produce reti più complesse ma consapevoli di relazioni causali tra osservazioni e decisioni.

Ciò è decisivo per un uso sofisticato dei meccanismi linguistici perché aspetti della conoscenza implicita nell’uso linguistico costituiscono un effetto collaterale dell’apprendimento: ad esempio, mediante l’attenzione possiamo esprimere quanto un certo contesto frasale influenzi la interpretazione di un senso di una parola ambigua rispetto ad un altro, e questo è decisivo nella previsione sugli usi di tali sensi nelle frasi future. Nell’ambito della analisi visuale mediante reti neurali, la attenzione è stata usata per determinare quali parti di una scena (input) evocano certe parole adeguate a descriverle linguisticamente nell’output (ad es. la didascalia dell’immagine prodotta dalla rete).

Il terzo, e anch’esso decisivo aspetto del pre-training in GPT-3, è l’idea del multi-task learning, che suggerisce di aumentare l’insieme dei task che “in parallelo” agiscono sullo stesso modello consentendo all’encoding-decoding di concentrarsi su diversi compiti, risultando quindi in una generalizzazione migliore per tutti i task. In questo modo, le generalizzazioni prodotte nel pre-training costituiscono buone spiegazioni di aspetti più generali dell’input e si avvicinano a modelli universali verso task diversi. BERT (Devlin et al., 2018) è un modello di rete attenzionale, detta trasformer, che aderisce ai tre principi. BERT è caratterizzato da due task diversi di pre-training mediante l’addestramento di un modello basato sull’attenzione. Il primo, detto di masked language modelling (MLM), richiede all’encoding di ricostruire perfettamente frasi complete, ottenute nascondendo una percentuale consistente di parole dalle frasi di ingresso. In questo caso l’encoding n-dimensionale ottimo corrisponde a quello che rappresenta un contesto con non più di n valori e sa predire al meglio le parole assenti, robusto quindi a tale forma di rumore (artificialmente prodotto nei milioni di testi di addestramento).

Un secondo task è quello della continuazione di un testo (o Next Sentence Prediction task (NSP), proprio quello in cui GPT-3 sembra eccellere secondo i giornalisti del Guardian. Nel NSP task, data una coppia di frasi si chiede al modello di encoding di decidere se la prima frase possa essere considerata la continuazione adeguata dell’altra o no. Questo secondo task usa un encoding dei contesti frasali a coppie, per imparare a distinguere esempi positivi (cioè coppie adiacenti di frasi osservate effettivamente in sequenza in uno dei testi di addestramento) da quelli negativi (coppie generate, anche in modo causale, associando frasi di paragrafi o documenti diversi).

Grazie a questo tipo di pre-training BERT si è affermato come metodo ottimo per la rappresentazione degli elementi lessicali di un testo, altamente riutilizzabile in processi di fine-tuning verso molto task specifici. Le applicazioni del paradigma BERT oggi sono alla base dello stato dell’arte sperimentale in diversi task: lo stesso language model ottenuto da BERT in pre-training è in grado di produrre sistemi ottimi in task eterogenei diversi, dal question answering alla traduzione, dal dialogo alla sentiment analysis. Osserviamo che BERT è ampiamente applicabile a lingue diverse per la generazione automatica (grazie al carattere non supervisionato del suo pre-training) di encoding ottimi. Encoding unificati che applicano un modello condiviso tra lingue diverse sono molto interessanti per applicazioni multilinguali che sono sempre più frequenti nel Web e nei Social Media.

 

Nella seconda parte di questa trattazione si affronta il tema del rapporto fra Intelligenza Naturale e GPT-3 ed è presente anche la bibliografia generale.

WEBINAR
FORUM PA 2021- Sanità: con i Big Data nuovo modello di salute connessa e predittiva
Big Data
Intelligenza Artificiale

 

FacebookTwitterLinkedIn