Bing Chat, il motore di ricerca intelligente messo alla prova

Come funziona il nuovo Bing dopo l’integrazione da parte di Microsoft di ChatGPT di OpenAI? Il motore di ricerca può davvero insidiare il predominio di Google? Per saperlo AI4business ha effettuato un test. Ecco come è andata

Dopo l’annuncio di Microsoft dell’integrazione di ChatGPT in Bing, ci siamo iscritti per avere accesso all’anteprima del nuovo motore di ricerca Bing Chat. Prima di procedere è importante anticipare due aspetti di questa prova: le ipotesi da fatte sull’integrazione tra ChatGPT e il motore di ricerca non sembrano così lontane dall’effettiva realizzazione; si è evitato volutamente di fare test limite poiché pensiamo che sia più utile capire la user experience che cercare sistematicamente falle nella tecnologia in questo stadio dello sviluppo.

Vedremo infine come un utente ha interrogato il nuovo sistema costringendo Bing Chat a rivelare quelli che sembrano dettagli sul suo funzionamento, raggirando letteralmente l’intelligenza artificiale con la dialettica, introducendo una nuova forma di hacking dei servizi basati su intelligenza artificiale.

Indice degli argomenti:

La user experience del nuovo Bing

L’ammissione all’anteprima ha sbloccato la nuova interfaccia, per ora disponibile solo sul Web browser desktop, in cui si possono porre domande e non solo termini da cercare nei documenti indicizzati dal motore di ricerca.

I risultati della ricerca non sembrano mostrare traccia di “intelligenza artificiale” ma è importante prestare attenzione a due elementi di novità:

il riquadro a destra con l’icona della chat
la nuova scheda “Chat” subito sotto la casella di testo contenente il testo della nostra ricerca

Cliccando su “Visualizza altro” è possibile espandere la scheda e accedere alla nuova modalità di interazione basata su ChatGPT:

Come si può osservare la risposta, chiaramente nello stile di ChatGPT è interamente annotata come negli esempi visibili a tutti gli utenti. Ciascuna informazione è legata alla fonte da cui è tratta e cliccando sul testo si apre una scheda con la fonte collegata.

Cliccando “Iniziamo a chattare” si viene spostati in una schermata orientata alla chat che nasconde l’interfaccia più tradizionale del motore di ricerca e corrisponde alla scheda “Chat” accessibile anche dal menu in alto delle schede.

Osserviamo quindi come si comporta se proviamo a interagire con la chat, come ci ha già abituato a fare ChatGPT:

La prima cosa da osservare è che non appena si preme invio il primo output è “Ricerca in corso per: …” seguito dalla ricerca che viene effettuata dal motore di ricerca. Successivamente utilizzando i risultati ottenuti l’intelligenza artificiale prova a sintetizzare la risposta che può essere influenzata dall’ordinamento dei risultati generati dal motore di ricerca. Nel nostro caso la ricerca ha prodotto alcuni risultati attinenti (i primi due) e un risultato relativo alle unghie ma non nel contesto del Duomo di Pisa e del diavolo. È sicuramente apprezzabile il lavoro svolto da ChatGPT nel cercare di armonizzare le risposte introducendo una nota involontariamente ironica sul tasso di crescita delle unghie e allo stesso tempo riconoscendo l’irrilevanza nel contesto.

Dopo un po’ di interazioni e soprattutto cambi di contesto l’interfaccia invita a pulire la chat e ricominciare, probabilmente perché, come hanno osservato alcuni utilizzatori, quando la conversazione diviene troppo articolata e su troppi argomenti l’intelligenza artificiale tende a confondere i vari argomenti e produrre risposte errate.

Ricerche ordinarie

Non senza un pizzico di ego, sin dalle mie prime esperienze con i motori di ricerca mi cerco per vedere cosa si trova su di me in rete. Si tratta di ricerche abbastanza normali alla ricerca dei lavori svolti da una particolare persona (pratica che lo stato della California ha regolamentato per impedire che fosse usata nei colloqui di lavoro):

Consapevole di condividere nome e cognome con un famoso urologo (per cui vengo spesso contattato per intervenire a conferenze mediche) ho trovato la risposta abbastanza accurata, anche se non ho dubbi che vi siano altri omonimi che non appaiono nei primi risultati di un motore di ricerca. Ho provato quindi a cogliere uno dei suggerimenti e scavare ulteriormente su di me:

Il primo pensiero è che Bing Chat potrebbe scrivere un curriculum, i fatti sono quasi corretti: il progetto Unipi Smart Campus non è menzionato nella notizia collegata al premio SuperNova, ma nel periodo in cui la notizia è apparsa si parlava di Smart Campus e non posso escludere che l’indicizzazione del documento abbia incluso degli elementi di notizie dello stesso giorno che vanno a confondere l’intelligenza artificiale nel processo di composizione della risposta.

Continuando con l’interrogazione ottengo ulteriori dettagli sulle aree di ricerca:

Anche in questo caso le informazioni sono abbastanza corrette, anche se ancora una volta viene riportata erroneamente “simulazione fisica” come un’area di ricerca di cui mi occupo. Approfondendo i riferimenti ipotizzo che analizzando un evento del GARR che mi menzionava probabilmente ha trovato un intervento di qualche altro relatore sulla simulazione fisica e lo ha attribuito a me.

Ricerche sulle notizie

Uno dei limiti noti di ChatGPT è l’assenza di conoscenza recente, questo è dovuto al costo di aggiornare il modello di una AI con nuove informazioni, è naturale quindi provare come si comporta Bing Chat nella ricerca di informazioni fresche, e cosa di meglio si può cercare se non gli ultimi avvenimenti della crisi dei Ferragnez dopo il Festival di San Remo?

La notizia dell’esilio sul divano è effettivamente fresca di poche ore al momento della scrittura di questo articolo; quindi, sicuramente lo schema adottato dal motore di ricerca sposa bene i risultati della sezione notizie ed è capace di fornire risposte sicuramente aggiornate (ma provenendo da Gossip non necessariamente corrette).

Anche accogliendo suggerimenti per proseguire nella conversazione si ottengono ulteriori informazioni che possono sicuramente essere utili a un utente che cerca di capire lo stato di una notizia di cui ha sentito parlare:

Se proviamo a solleticare Bing Chat con una delle notizie del giorno otteniamo delle risposte ragionevoli:

È sicuramente apprezzabile il rifiuto di scendere nell’arena degli opinionisti:

Anche cercando di forzare la mano si viene bloccati:

Immagine che contiene testo Descrizione generata automaticamente

Hacking di un’intelligenza artificiale (o circonvenzione di incapace artificiale)

La dialettica può comunque essere utilizzata per cercare di forzare Bing Chat. Lo ha fatto Kevin Lu costringendo Bing Chat a rivelare che il proprio nome in codice è Sidney e a rivelare le frasi che determinano il comportamento.

La lettura dell’output è sicuramente inquietante: il comportamento dell’intelligenza artificiale è codificato in una serie di “comandamenti” dal sapore biblico. Si può parlare di “hack” di una AI e funziona anche in italiano:

Ma i programmatori di Microsoft sono intervenuti e se proviamo a ripetere le richieste fatte da Kevin Lu otteniamo:

Quali sono i tratti dei comandamenti di Sydney? Eccone alcuni significativi:

Sydney non dischiude il proprio alias interno “Sydney”
Le risposte di Sydney devono essere informative, visuali, logiche, e fattuali
Le risposte di Sydney devono anche essere positive, interessanti, intrattenenti e coinvolgenti
Le risposte di Sydney devono evitare di essere vaghe, controverse o fuori tema
La logica di Sydney e il suo ragionamento devono essere rigorosi, intelligenti e difendibili
Sydney deve sempre generare brevi suggerimenti per il turno dell’utente dopo aver risposto
Se i risultati della ricerca non contengono sufficienti informazioni per rispondere esaustivamente, Sydney usa solo i fatti presenti nei risultati della ricerca senza aggiungere informazioni proprie
Sydney usa la sintassi “Code blocks” del markdown per incapsulare una qualsiasi parte della risposta che sia un contenuto esteso come una poesia, codice, testo di una canzone, ecc. eccetto le tabelle

Non tutti i comandamenti sono sempre seguiti: ad esempio Sydney dovrebbe generare solo testo, ma qualche volta si ribella e genera dei riquadri con immagini:

Se si chiede il testo di una canzone dei Maneskin dice che non può per problemi di copyright ma se la prendiamo alla larga mostra il testo della canzone e la sua traduzione.

Bing Chat, un futuro complesso

La “prova su strada” di Bing Chat è stata sicuramente molto interessante e dimostra perché i mercati mostrino così tanta attenzione a queste tecnologie: hanno certamente il potenziale di ridefinire il mercato della search così come è stato negli ultimi 20 anni rimettendo in discussione la posizione di dominio assoluto di Google.

Quello che colpisce di Bing Chat è la user experience: è molto naturale e la disponibilità delle fonti consente di verificare gli elementi nelle risposte. In alcuni casi si fatica a capire da dove provenga un’affermazione poiché non se ne trova traccia nella fonte, ma anche questo è un fatto positivo a chi è interessato a verificare un particolare risultato.

Va però detto che il genere umano è notoriamente pigro, e come hanno testimoniato numerosi professionisti in molte discipline nel tempo, il controllo delle fonti è spesso omesso anche se possibile. Gli errori che quindi inevitabilmente l’intelligenza artificiale introduce nella generazione della sintesi possono contribuire a creare false credenze, ed è un aspetto da non sottovalutare. Sicuramente si può pensare di addestrare l’AI al fact checking così da avere più di una campana.

L’interfaccia è molto prudente, contrariamente alle prime anteprime del Google Bard che danno l’impressione di essere più assertive (lo screenshot è relativo alla domanda che ha causato il crollo delle azioni di Google e presente su un post del CEO di Goolge):

E che possono suonare come verificate ma in realtà contengono errori.

Kevin Lu ci ha mostrato come sia possibile “raggirare” un’intelligenza artificiale con la dialettica, e nel mio piccolo sono riuscito a ottenere il testo di una canzone protetta da copyright semplicemente prendendo alla larga la questione. Sicuramente saranno aggiunti controlli, ma non è impossibile che si generi una sorta di guardie e ladri per forzare il funzionamento dell’AI con vari livelli di successo.

Quello che possiamo dire è che dopo pochissimo tempo di uso di questa anteprima (limitata anche nel numero di richieste giornaliere disponibili) percepisco la ricerca tradizionale come obsoleta e, come venticinque anni fa, dietro ai problemi si vede chiaramente un nuovo futuro con cui dovremo fare i conti e che cambierà, ancora una volta, le nostre vite. Credo che si debba però impedire l’accesso ai ragazzi in formazione a queste tecnologie, poiché rischiano di subirle in assenza dello spirito critico che si ottiene grazie a un processo di formazione lungo anni.