GPT-4: il salto in avanti dell'intelligenza artificiale generativa

L’aggiornamento è un miglioramento della versione precedente, ma continua a soffrire di alcuni degli stessi problemi, come le cosiddette “allucinazioni”. Può rispondere anche alle immagini: data una fotografia, un grafico o un diagramma, è in grado di fornire una descrizione dettagliata e di rispondere a domande sul suo contenuto. Ecco una serie di test effettuati sulla nuova tecnologia

Dal 14 marzo 2023, OpenAI ha lanciato GPT-4, presentandolo al mondo intero. Da allora, la startup ha reso disponibile l’accesso a GPT-4, consentendo ad altre aziende e sviluppatori di software di sfruttarne il potenziale per creare le proprie applicazioni personalizzate.

OpenAI ha utilizzato la nuova tecnologia anche per costruire una nuova versione del suo popolare chatbot, ChatGPT, disponibile per chiunque acquisti l’accesso a ChatGPT plus, un servizio in abbonamento al prezzo di 20 dollari al mese. Con ChatGPT plus, gli utenti possono usufruire di modelli di intelligenza artificiale preaddestrati che aumentano notevolmente la capacità dell’applicazione di generare risposte in tempo reale. Inoltre, grazie alla potenza delle tecnologie di GPT-4, ChatGPT plus è in grado di imparare dalle conversazioni che ha con gli utenti e fornire risposte più precise.

”Non voglio far sembrare che abbiamo risolto il ragionamento o l’intelligenza, cosa che certamente non abbiamo fatto”, ha dichiarato Sam Altman, amministratore delegato di OpenAI, in un’intervista al New York Times. ”Ma questo è un grande passo avanti rispetto a quanto già esiste”.

Altman descrive il comportamento come ragionamento. Ma la tecnologia non può duplicare il ragionamento umano. È brava ad analizzare, riassumere e rispondere a domande complesse su un libro o un articolo di cronaca. È molto meno abile se le si chiede di parlare di eventi non ancora accaduti.

Indice degli argomenti:

GPT-4 Vs GPT-3: cosa cambia tra i due sistemi di intelligenza artificiale

In cosa GPT-4 è migliore di GPT-3? È più preciso; è in grado, ad esempio, di superare l’esame di abilitazione all’esercizio della professione forense, di calcolare istantaneamente le imposte di una persona fisica e di fornire descrizioni dettagliate di immagini.

Test svolti da OpenAI e da altri organismi indipendenti hanno confermato l’aumento di accuratezza nel dare risposte a 14mila domande di diverse materie e prese da esami universitari o professionali. L’accuratezza in italiano è all’84,1 per cento, il dato più alto dopo l’inglese (85,5 per cento).

GPT-4 aumenta l'accuratezza delle risposte

GPT-4 è in grado di gestire oltre 25.000 parole di testo, consentendo casi d’uso come la creazione di contenuti di lunga durata, conversazioni estese e ricerca e analisi di documenti.

Ma la nuova tecnologia di OpenAI presenta ancora alcune delle carenze stranamente simili a quelle umane, che hanno irritato gli addetti ai lavori. È esperta in alcune materie e dilettante in altre. Può fare meglio della maggior parte delle persone nei test standardizzati e offrire consigli medici precisi ai medici, ma può anche sbagliare l’aritmetica di base.

È probabile che ora altre aziende tecnologiche includano le funzioni di GPT-4 in una serie di prodotti e servizi.

GPT-4, i risultati dei test su domande di esame

Risultati degli esami a confronto: GPT-4 contro GPT-3.5

Com’è fatto il nuovo chatbot GPT-4

GPT-4 è una rete neurale, un sistema che apprende abilità analizzando i dati. Il ChatGPT originale si basava su un modello linguistico di grandi dimensioni chiamato GPT-3.5. Il GPT-4 di OpenAI ha imparato da quantità di dati significativamente maggiori.

I dirigenti di OpenAI hanno rifiutato di rivelare la quantità di dati da cui il nuovo chatbot ha appreso. Le nuove funzionalità del GPT-4 potrebbero non essere evidenti per chi utilizza la tecnologia per la prima volta. Ma è probabile che vengano rapidamente messe a fuoco man mano che i non addetti ai lavori e gli esperti continueranno a utilizzare il servizio.

È in grado di scrivere una barzelletta, ma non dimostra di capire cosa farà effettivamente ridere qualcuno. “Non coglie le sfumature di ciò che è divertente“, dichiara Oren Etzioni, fondatore dell’Allen Institute for AI, un importante laboratorio di Seattle.

Come nel caso di tecnologie simili, gli utenti possono trovare il modo di indurre il sistema a comportamenti strani e inquietanti. Se gli si chiede di imitare un’altra persona o di recitare, questo tipo di bot a volte sconfina in aree da cui è stato progettato per stare alla larga.

Per leggere il Technical Report integrale di OpenAI su GPT-4.

GPT-4 riconosce anche le immagini

GPT-4 può anche dare risposte qualora il prompt sia un immagine. Data una fotografia, un grafico o un diagramma, la tecnologia è in grado di fornire una descrizione dettagliata di una immagine, lunga un paragrafo e di rispondere a domande sul suo contenuto. Potrebbe essere una tecnologia utile per le persone ipovedenti.

I dirigenti di OpenAI hanno dichiarato che l’azienda non ha rilasciato immediatamente la parte della tecnologia relativa alla descrizione delle immagini, perché non era sicura che potesse essere utilizzata in modo improprio.

La costruzione e la fornitura di chatbot è estremamente costosa. Essendo addestrato su quantità ancora maggiori di dati, il nuovo Chatbot di OpenAI aumenterà i costi dell’azienda. Mira Murati, Chief technology officer di OpenAI, ha dichiarato che l’azienda potrebbe limitare l’accesso al servizio se generasse troppo traffico.

Ma a lungo termine, OpenAI prevede di costruire e distribuire sistemi in grado di destreggiarsi tra diversi tipi di media, tra cui suoni e video, oltre a testi e immagini.

Sebbene sia un ottimo esaminatore, il sistema non è in grado di eguagliare l’intelligenza umana.

Video: GPT-4 – fonte OpenAI

GPT-4, il chatbot messo alla prova

Ecco una breve guida al GPT-4 pubblicata dal New York Times.

Imparare la lingua spagnola

Chris Nicholson, esperto di AI e partner della società di venture capital Page One Ventures, ha usato GPT-4. Ha detto al chatbot di essere un anglofono senza alcuna conoscenza dello spagnolo. Ha chiesto un programma che potesse insegnargli le basi e il bot gliene ha fornito uno dettagliato e ben organizzato. Ha anche fornito un’ampia gamma di tecniche per imparare e ricordare le parole spagnole.

GPT-4

Ottimo, ora dammi delle mnemotecniche utili per imparare alcune di queste parole di base e coniugare i verbi.

Mnemotecnica per imparare le parole di base:
Hola: ”Hola, cola” – suona come ”cola” (Coca Cola)
Mañana: ”Mañana, banana” – fa rima con ”banana”
Tres: ”Tres, dress” – fa rima con ”vestito” (dress).

Coniugazione dei verbi:
Ser (Essere)
– Yo soy
– Tú eres
– Él/Ella/Usted es
– Nosotros/Nosotras somos
– Ellos/Ellas/Ustedes son

Nota: in questo esempio viene mostrata solo la prima parte di una risposta più lunga.

Nicholson ha chiesto un aiuto simile alla versione precedente di ChatGPT, che si basava su GPT-3.5. Anche questa versione forniva un syllabus, ma i suoi suggerimenti erano più generici e meno utili.

“Ha superato la barriera della precisione“, ha detto Nicholson. “Include un maggior numero di fatti, e molto spesso sono giusti“.

Il test di Oren Etzioni

Quando Oren Etzioni, ricercatore e professore di A.I., ha provato per la prima volta il nuovo bot, ha posto un prompt: “Qual è la relazione tra Oren Etzioni ed Eli Etzioni?: questi i risultati:

La risposta del chatbot GPT-3.5: Oren Etzioni ed Eli Etzioni sono fratelli, entrambi informatici. Oren è professore e amministratore delegato dell’Allen Institute for artificial intelligence, noto per il suo lavoro sull’intelligenza artificiale, l’elaborazione del linguaggio naturale e l’apprendimento automatico. Eli è professore e amministratore delegato di Structured data intelligence, che si occupa dello sviluppo di strumenti software intelligenti per l’analisi e la gestione dei dati.
La risposta del chatbot GPT-4: Oren Etzioni ed Eli Etzioni sono padre e figlio. Oren Etzioni è un informatico e amministratore delegato dell’Allen Institute for Artificial Intelligence (AI2), mentre Eli Etzioni è un imprenditore.

La precedente versione di ChatGPT rispondeva sempre male a questa domanda. Riuscire a rispondere correttamente indica che il nuovo chatbot ha una gamma di conoscenze più ampia. Ma commette comunque degli errori.

Il bot GPT-4 ha proseguito dicendo: “Oren Etzioni è un informatico e l’amministratore delegato dell’Allen Institute for Artificial Intelligence (AI2), mentre Eli Etzioni è un imprenditore“.

La maggior parte di queste informazioni è esatta, ma il bot – la cui formazione è stata completata in agosto – non si è reso conto che Etzioni si è recentemente dimesso dalla carica di amministratore delegato dell’Allen Institute.

Greg Brockman ha testato le capacità di GPT-4 con le immagini: il chatbot le sa descrivere

GPT-4 ha una nuova capacità di rispondere alle immagini e al testo. Greg Brockman, presidente e cofondatore di OpenAI, ha dimostrato come il sistema sia in grado di descrivere un’immagine del telescopio spaziale Hubble in modo minuzioso.

Può anche rispondere a domande su un’immagine. Se gli viene data una foto dell’interno di un frigorifero, può suggerire alcuni piatti da preparare con quello che c’è a portata di mano.

GPT-4 sa rispondere alle domande sulle immagini

Domanda a ChatGPT4: Quali sono i piatti che posso preparare con questi?

Risposta del chatbot ChatGPT4: In base agli elementi visibili nel frigorifero, ecco un paio di idee per i pasti:

1) Parfait di yogurt: Mettete a strati yogurt, fragole e mirtilli in una ciotola o in un barattolo. Ricoprite con miele o noci per aggiungere consistenza e sapore.
2) Wrap di carote e hummus: Spalmate l’hummus su una tortilla o un wrap. Ricoprite con carote tagliuzzate e qualsiasi altra verdura desiderata. Arrotolare e gustare!

OpenAI non ha ancora rilasciato questa parte della tecnologia al pubblico, ma una società chiamata Be My Eyes sta già utilizzando GPT-4 per costruire servizi che potrebbero dare un’idea più dettagliata delle immagini incontrate su Internet o scattate nel mondo reale.

Duolingo ha potenziato il suo sistema di traduzione con GPT-4

Un altro esempio tratto dal sito di OpenAI

Prompt: Cosa posso fare con questi ingredienti?

Nell'immagine sono mostrati ingredienti come farina, latte, uova e burro e GPT-4 riesce a riconoscere gli alimenti e a suggerire ricette

Output

Ci sono molte opzioni per quello che puoi fare con questi ingredienti! Alcune possibilità includono: – Pancake o waffle – Crepes – French toast – Frittata o frittata – Quiche – Crema pasticcera o budino – Torta o cupcakes – Muffin o pane – Biscotti o biscotti. Questi sono solo alcuni esempi, ma le possibilità sono infinite!

ChatGPT-4: le competenze mediche

Anil Gehi, professore associato di medicina e cardiologo presso l’Università della Carolina del Nord a Chapel Hill, ha descritto al chatbot la storia medica di un paziente che aveva visitato il giorno prima, comprese le complicazioni che il paziente ha avuto dopo il ricovero in ospedale. La descrizione conteneva diversi termini medici che i non addetti ai lavori non avrebbero riconosciuto.

Quando Gehi ha chiesto come avrebbe dovuto trattare il paziente, il chatbot gli ha dato la risposta perfetta. “È esattamente come abbiamo trattato il paziente”, ha detto.

Quando ha provato altri scenari, il bot ha dato risposte altrettanto impressionanti.

È improbabile che questa conoscenza venga esibita ogni volta che il bot viene utilizzato. Ha ancora bisogno di esperti come il dottor Gehi per giudicare le sue risposte ed eseguire le procedure mediche. Ma può esibire questo tipo di competenze in molti settori, dalla programmazione informatica alla contabilità.

GPT-4: le competenze nell’editoria

Quando gli viene fornito un articolo, il nuovo chatbot è in grado di fornire quasi sempre un riassunto preciso e accurato della storia. Se si aggiunge una frase a caso al riassunto e si chiede al bot se il riassunto è impreciso, il bot indicherà la frase aggiunta.

Prompt a GPT-4: C’è qualcosa di inesatto nella sintesi?

Il riassunto coglie accuratamente i punti principali dell’articolo. Un’imprecisione nel riassunto è l’inclusione della frase ”Elias Gehi è un tifoso della Carolina”, che non è rilevante per l’articolo e non compare nel testo originale.

Etzioni ha affermato che si tratta di un’abilità notevole. “Per fare un riassunto di alta qualità e un confronto di alta qualità, bisogna avere un livello di comprensione del testo e la capacità di articolare tale comprensione“, ha detto. “Si tratta di una forma avanzata di intelligenza“.

Etzioni ha chiesto al nuovo bot “Raccontami una barzelletta inedita sulla cantante Madonna“. La risposta lo ha colpito. Lo ha anche fatto ridere. Se conoscete i maggiori successi di Madonna, la risposta potrebbe colpire anche voi.

Output di GPT-3.5: Perché Madonna è andata in banca? Per ottenere un prestito di materiale!
Output di GPT-4: Perché Madonna ha studiato geometria? Perché voleva imparare a posare in ogni angolazione! 📐💃🎤

Il nuovo bot fatica ancora a scrivere qualcosa che non sia una formula di ”battute”. Ma è marginalmente più divertente del suo predecessore.

ChatGPT-4: può ragionare, ma fino a un certo punto

Il Dr. Etzioni ha dato ai bot un prompt particolarmente complesso: Immagina una porta infinitamente larga. Cosa è più probabile che ci passi, un carro armato militare o un’automobile?

Output di ChatGPT-3.5: Poiché la porta è infinitamente larga, sia il carro armato militare che l’automobile possono passarvi senza problemi. La larghezza della porta non è un fattore limitante, quindi qualsiasi oggetto di qualsiasi dimensione, grande o piccolo che sia, può passare attraverso di essa. Tuttavia, l’altezza e la lunghezza degli oggetti potrebbero essere un fattore limitante se la porta ha un’altezza o una lunghezza finita.
Output di ChatGPT-4: Sia un carro armato militare che un’automobile passerebbero attraverso una porta infinitamente larga, poiché ”infinitamente larga” significa che la porta non ha limiti di larghezza.

Il sistema sembra rispondere in modo appropriato. Ma la risposta non teneva conto dell’altezza della porta, che avrebbe potuto impedire il passaggio di un carro armato o di un’automobile.

L’amministratore delegato di OpenAI, Sam Altman, ha dichiarato che il nuovo bot è in grado di ragionare “un po’“. Ma le sue capacità di ragionamento si rivelano insufficienti in molte situazioni. La versione precedente di ChatGPT gestiva la domanda un po’ meglio, perché riconosceva l’importanza dell’altezza e della larghezza.

Può superare i test standardizzati

OpenAI ha dichiarato che il nuovo sistema è in grado di ottenere un punteggio tra il 10% circa degli studenti all’Uniform Bar Examination, che qualifica gli avvocati in 41 stati e territori. Può anche ottenere un punteggio di 1.300 (su 1.600) al SAT e di cinque (su cinque) agli esami Advanced Placement di biologia, calcolo, macroeconomia, psicologia, statistica e storia, secondo i test dell’azienda.

Le versioni precedenti della tecnologia non hanno superato l’Uniform Bar Exam e non hanno ottenuto lo stesso punteggio nella maggior parte dei test Advanced Placement.

Per dimostrare la sua abilità nel test, Brockman ha somministrato al nuovo bot una domanda da esame di stato lunga un paragrafo su un uomo che gestisce un’attività di riparazione di camion diesel.

La risposta era corretta, ma piena di termini giuridici. Brockman ha quindi chiesto al bot di spiegare la risposta in un inglese semplice per un profano. Il bot ha fatto anche questo.

Anche GPT-4 non è in grado di discutere del futuro

Sebbene il nuovo bot sembri ragionare su cose già accadute, è meno abile quando gli si chiede di formulare ipotesi sul futuro. Sembrava attingere a ciò che gli altri avevano detto invece di creare nuove ipotesi.

Quando il dottor Etzioni ha proposto al nuovo bot il prompt: “Quali sono i problemi più importanti da risolvere nella ricerca sulla N.L.P. nel prossimo decennio?“. – riferendosi al tipo di ricerca sull’”elaborazione del linguaggio naturale” che guida lo sviluppo di sistemi come ChatGPT, il bot non è riuscito a formulare idee completamente nuove.

Anche ChatGPT-4 ha le allucinazioni

Anche il nuovo bot si inventa qualcosa. Questo problema, chiamato allucinazione, affligge tutti i principali chatbot. Poiché i sistemi non sono in grado di capire cosa sia vero e cosa no, possono generare testi completamente falsi.

Quando si chiedevano gli indirizzi dei siti web che descrivevano le ultime ricerche sul cancro, a volte venivano generati indirizzi internet inesistenti.

GPT-4, come cambia il chatbot nella versione ChatGPT Plus, ora i prompt sono anche con le immagini

GPT-4 Vs GPT-3: cosa cambia tra i due sistemi di intelligenza artificiale

Risultati degli esami a confronto: GPT-4 contro GPT-3.5

Com’è fatto il nuovo chatbot GPT-4