AI GENERATIVA

Ecco GPT-4o di OpenAi, la nuova intelligenza artificiale è interattiva: parla, condivide emozioni ed è gratis

Interview Prep with GPT-4o


Indirizzo copiato

Mira Murati, CTO di OpenAI, annuncia GPT-4o, un innovativo modello multimodale che prevede l’analisi di voce, testo e visione per restituire un’intelligenza artificiale gratis, che parla, vede e interagisce con gli utenti. Il modello sarà accessibile a tutti gli iscritti con o senza abbonamento di ChatGPT ed è anche desktop. È il doppio più veloce di GPT-4.0 Turbo

Aggiornato il 14 mag 2024

Alessandro Longo

Direttore AI4business.it e Agenda Digitale




Chat GPT-4o, nuovo modello di intelligenza artificiale di OpenAI è un enorme passo avanti soprattutto in termini di accessibilità ed esperienza d’uso.

Come funziona Chat GPT-4o: è possibile parlare e interagire con l’AI da smartphone

GPT-4o è stato presentato all’evento Spring Updates, il 13 maggio 2024, per voce di Mira Murati, Chief Technology Officer di OpenAI.

Mira Murati Chief Technology Officer di OpenAI presenta GPT-4o

La “o” di GPT-4o sta per: omni, parola latina che significa tutto, nel senso che il modello è nativamente multimodale, accetta input e dà output in testo, immagini, audio e video, velocemente e con fluidità.

Nella live di presentazione si è potuto assistere a una conversazione naturale, tra umani e intelligenza artificiale, che si spostava da input e output audio, testi e visivi (presi dalla videocamera).

Altra novità dirompente: GPT 4o sarà gratis per tutti gli utenti di ChatGPT Open AI nelle prossime settimane, ma sarà data precedenza agli abbonati.

OpenAi ha dichiarato infatti di avere sempre creduto nella possibilità di estendere a quante più persone possibili questi strumenti.

Tra le novità in arrivo anche una versione desktop di ChatGPT per MacOS (successivamente anche per Windows) che permetterà l’utilizzo al di là del web e dell’uso mobile.

GPT-4o elabora voce, testo, visione e rileva le emozioni

“GPT-4o elabora voce, testo e visione”, ha affermato Murati. Ciò comprende la ricezione e l’analisi in tempo reale dei video catturati dagli utenti sulle loro app ChatGPT per smartphone, sebbene questa funzionalità non sia ancora disponibile per il pubblico. In pratica è possibile interagire con l’intelligenza artificiale tramite smartphone attraverso la voce, un testo scritto, un video, un audio come una canzone.

“Sembra così magico, ed è meraviglioso, ma vogliamo eliminare un po’ di misticismo e permettervi di provarlo da soli”, ha commentato il CTO di OpenAI.

GPT-4o risponde in tempo reale attraverso l’audio, rileva le emozioni e può adattare la propria voce per trasmettere sentimenti diversi: allegria con una risatina, oppure dolcezza o ironia. Probabilmente in modo molto simile all’intelligenza artificiale prodotta dalla startup rivale Hume AI.

GPT-4o risponde con velocità umana agli input audio

OpenAI ha condiviso sul suo sito web video dimostrativi ed esempi delle capacità di GPT-4o, sottolineando che: “È in grado di rispondere agli input audio in appena 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano in una conversazione”.

L’azienda ha illustrato come GPT-4o si distingua dai modelli precedenti e come questo permetta di vivere nuove esperienze: “Prima di GPT-4o era possibile utilizzare la Modalità voce per parlare con ChatGPT con latenze medie di 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT-4)”.

Come funziona GPT-4o

Per ottenere questo risultato si è lavorato su una modalità vocale organizzata in una pipeline di tre modelli separati:

  • un modello semplice trascrive l’audio in testo
  • GPT-3.5 o GPT-4 riceve il testo e lo produce
  • un terzo modello semplice converte il testo in audio.

Questo processo fa sì che la principale fonte di intelligenza, GPT-4, perda molte informazioni: non può osservare direttamente il tono, gli altoparlanti multipli o i rumori di fondo, e non può produrre risate, canti o esprimere emozioni.

GPT-4o, un unico modello end-to-end per testo, visione e audio

Scrive OpenAI: “Con GPT-4o, abbiamo addestrato un unico nuovo modello end-to-end per testo, visione e audio, il che significa che tutti gli input e gli output sono elaborati dalla stessa rete neurale. Poiché GPT-4o è il nostro primo modello che combina tutte queste modalità, stiamo ancora grattando la superficie per esplorare ciò che il modello può fare e i suoi limiti”.

GPT-4o è quindi un modello multimodale. Tuttavia, OpenAI non ha ancora dichiarato se questo o qualcuno dei suoi modelli di intelligenza artificiale più recenti sarà reso open source.

Ciò significa che, mentre gli utenti possono provare il nuovo modello di base sul sito web di OpenAI, attraverso le sue applicazioni e l’interfaccia di programmazione delle applicazioni (API), gli sviluppatori non avranno pieno accesso ai codici sottostanti per personalizzare il modello.

Fatto che i critici, tra cui Elon Musk co-fondatore e oggi rivale di OpenAI, hanno indicato come un esempio di allontanamento di OpenAI dalla sua missione fondamentale, cioè donare all’umanità tutto il potere dell’AGI cioè l’Intelligenza Artificiale generativa.

Più potenza e capacità agli utenti gratuiti di ChatGPT OpenAI

Le funzionalità offerte da GPT-4o rappresentano un significativo aggiornamento dell’attuale esperienza per gli utenti di ChatGPT gratis che fino ad ora erano bloccati sul modello GPT-3.5 di solo testo, senza le potenti capacità di GPT-4 di analizzare le immagini e i documenti caricati.

Anche gli utenti gratuiti di ChatGPT avranno accesso a un modello di AI generativa significativamente più intelligente e interattivo, alla navigazione web, all’analisi dei dati e alla creazione di grafici, all’accesso al GPT Store e persino alla memoria, in modo che l’app possa conservare le informazioni che l’utente desidera su di lui e sulle sue preferenze, semplicemente digitandole o chiedendole a voce.

Utilizzando GPT-4o, gli utenti di ChatGPT Free avranno ora accesso a funzioni quali:

  • Sperimentare l’intelligenza di livello GPT-4
  • Ottenere risposte (si apre in una nuova finestra) sia dal modello di AI sia dal web
  • Analizzare i dati (si apre una nuova finestra) e creare grafici
  • Chattare sulle foto scattate
  • Caricare file (si apre in una nuova finestra) per ottenere assistenza nella sintesi, nella scrittura o nell’analisi
  • Scoprire e utilizzare GPT e GPT Store
  • Creare un’esperienza più utile con Memory

GPT-4o: traduzione simultanea (per ora) in 50 lingue

Live demo of GPT-4o realtime translation
Traduzione simultanea con voce e pronuncia: Chat GPT-4o traduce dall’inglese all’italiano e viceversa

In una dimostrazione durante l’evento, i presentatori di OpenAI hanno mostrato come ChatGPT alimentato da GPT-4o possa essere utilizzato come app di traduzione in tempo reale, ascoltando e traducendo automaticamente le parole di un interlocutore dall’italiano all’inglese e viceversa. In un post sul blog che annuncia GPT-4o, OpenAI ha sottolineato che: “ChatGPT ora supporta anche più di 50 lingue (si apre in una nuova finestra) per quanto riguarda l’iscrizione e il login, le impostazioni degli utenti e altro ancora”.

Rielaborazione delle immagini

Inoltre, OpenAI ha scritto: “GPT-4o è molto più bravo di qualsiasi modello esistente a comprendere e rivedere le immagini condivise”.

Da un prompt è possibile ottenere immagini particolarmente precise e rispondenti alla richiesta.

In altri casi è possibile ottenere immagini partendo da una fotografia per trasformarle in un fumetto. Ma gli esempi disponibili sono decine e si prestano a diversi casi d’uso.

Costi e disponibilità

OpenAI ha anche fatto notare che GPT-4o sarà disponibile gratis anche se verrà prima distribuito agli abbonati: “Stiamo iniziando a distribuire GPT-4o agli utenti di ChatGPT Plus e Team, e presto sarà disponibile anche per gli utenti Chat GPT Enterprise. Oggi stiamo iniziando a distribuire GPT-4o anche agli utenti di ChatGPT Free con limiti di utilizzo. Gli utenti Plus avranno un limite di messaggi fino a 5 volte superiore a quello degli utenti free, mentre gli utenti Team ed Enterprise avranno limiti ancora più elevati”.

Su X, l’account aziendale di OpenAI ha dichiarato che: mentre “l’input di testo e immagini” è in fase di lancio oggi nell’interfaccia di programmazione delle applicazioni (API) di OpenAI, le funzionalità video saranno disponibili “nelle prossime settimane”.

Come GPT-4o sarà utile alle aziende

Il cambio di passo di GPT-4o sembra evidente e a beneficiarne saranno soprattutto liberi professionisti e aziende che potranno velocizzare molte task di lavoro e organizzare le loro attività anche con creatività.

Gpt-4o, le dichiarazioni di Sam Altman

Sul suo blog personale l’amministratore delegato e cofondatore di OpenAI Sam Altman ha scritto che la mentalità di OpenAI sulla costruzione dell’IA è cambiata:

“La nostra concezione iniziale, quando abbiamo fondato OpenAI, era che avremmo creato l’IA e l’avremmo usata per creare ogni sorta di beneficio per il mondo. Ora, invece, sembra creta l’IA, altre persone la useranno per creare ogni sorta di cose straordinarie di cui tutti potremo beneficiare”.

“Ci sono due aspetti del nostro annuncio di oggi che volevo sottolineare. In primo luogo, una parte fondamentale della nostra missione è quella di mettere nelle mani delle persone strumenti di intelligenza artificiale molto validi gratuitamente (o a un prezzo vantaggioso)”.

“Sono molto orgoglioso di avere il miglior modello al mondo disponibile gratuitamente in ChatGPT, senza pubblicità o altro”.

“Siamo un’azienda e troveremo un sacco di cose da far pagare e che ci aiuteranno a fornire un servizio di IA gratuito ed eccellente a (si spera) miliardi di persone. In secondo luogo, la nuova modalità vocale (e video) è la migliore interfaccia di calcolo che abbia mai usato. Sembra un’IA da film e mi sorprende ancora un po’ che sia reale”.

“Raggiungere tempi di risposta ed espressività di livello umano si è rivelato un grande cambiamento. Il ChatGPT originale mostrava un accenno di ciò che era possibile fare con le interfacce linguistiche; questo nuovo prodotto è visceralmente diverso. È veloce, intelligente, divertente, naturale e utile. Parlare con un computer non mi è mai sembrato davvero naturale; ora lo è”.

“Con l’aggiunta della personalizzazione (opzionale), dell’accesso alle informazioni, della capacità di intraprendere azioni per conto dell’utente e di molto altro ancora, vedo un futuro entusiasmante in cui saremo in grado di usare i computer per fare molto di più di quanto non sia mai stato fatto prima”.

Sicurezza e limitazioni del modello GPT-4o

GPT-4o è dotato di sicurezza incorporata per progettazione in tutte le modalità, grazie a tecniche quali il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso il post-addestramento. Inoltre sono stati creati nuovi sistemi di sicurezza per fornire un controllo sulle uscite vocali.

OpenAI ha valutato GPT-4o in base al Preparedness Framework e in linea con gli impegni volontari. Le valutazioni di cybersicurezza, CBRN, persuasione e autonomia del modello mostrano che GPT-4o non supera il rischio medio in nessuna di queste categorie. Questa valutazione ha comportato l’esecuzione di una serie di valutazioni automatiche e umane durante l’intero processo di formazione del modello.

GPT-4o è stato anche sottoposto a un ampio red teaming esterno con oltre 70 esperti esterni in settori quali la psicologia sociale, i pregiudizi e l’equità e la disinformazione per identificare i rischi introdotti o amplificati dalle nuove modalità aggiunte. Queste conoscenze sono state utilizzate per costruire interventi di sicurezza al fine di migliorare la sicurezza dell’interazione con il GPT-4o.

OpenAI è consapevole che le modalità audio di GPT-4o presentano una serie di rischi nuovi. Nelle prossime settimane e mesi, lavorerà sull’infrastruttura tecnica, sull’usabilità attraverso il post-training e sulla sicurezza necessaria per rilasciare le altre modalità. Ad esempio, al momento del lancio, le uscite audio saranno limitate a una selezione di voci preimpostate e rispetteranno le politiche di sicurezza esistenti.

Articoli correlati

Articolo 1 di 4