Google ha finalmente svelato Gemini, il suo nuovo modello di intelligenza artificiale, che secondo alcuni esperti potrebbe diventare una risorsa chiave nella corsa alla supremazia dell’AI contro i rivali OpenAI, Microsoft, Meta e Amazon.
Gemini, anticipato da mesi come la prossima grande innovazione di Google nel campo dell’intelligenza artificiale, rappresenta il rilascio del modello di intelligenza artificiale più grande e più ambizioso mai realizzato dal gigante tecnologico.
Secondo l’amministratore delegato Sundar Pichai, Gemini avvicina notevolmente l’azienda alla creazione di un assistente AI poliedrico in grado di comprendere e ragionare sul mondo come un essere umano.
Il nuovo modello è, in parte, la risposta di Google alla crescente domanda di prodotti AI aziendali in grado di analizzare e generare testo, immagini, audio, video e altri formati di dati.
Il modello di AI più flessibile di Google
Google afferma che Gemini è il suo modello di intelligenza artificiale più flessibile, in grado di funzionare in modo efficiente sia nel cloud dei grandi data center, sia a livello locale sui dispositivi mobili.
Tre i modelli rilasciati:
- GeminiGemini Ultra, la versione più grande, destinata a compiti altamente complessi come la ricerca scientifica e l’analisi dei dati. Si tratta della versione più intensiva e capace di calcolo.
- Gemini Pro, progettato per essere scalato in un’ampia gamma di applicazioni. Verrà utilizzato in prodotti Google come l’AI conversazionale Bard e per alimentare le nuove funzioni degli smartphone Pixel.
- Gemini Nano, un modello leggero e on-device che può essere eseguito localmente su smartphone e altri dispositivi.
Un modello multimodale
Google afferma che Gemini è stato costruito intenzionalmente da zero come modello multimodale, il che significa che è in grado di combinare senza problemi diverse modalità di informazione (come video, foto, audio e testo) e di eseguire sofisticati ragionamenti e compiti di risoluzione dei problemi in ciascuno di questi diversi formati.
Gemini è stato sottoposto a test rigorosi e ha superato gli esperti umani in diversi test di ragionamento complessi. Inoltre, ha ottenuto i punteggi più alti in oltre 30 benchmark standardizzati di intelligenza artificiale, tra cui il Massive Multitask Language Understanding (MMLU), che valuta le capacità di 57 materie, dalla matematica alla fisica, dalla storia alla legge e all’etica.
Gemini Ultra ha inoltre ottenuto un punteggio all’avanguardia del 59,4% nel nuovo benchmark MMMU, che consiste in compiti multimodali che abbracciano diversi domini e che richiedono un ragionamento intenzionale.
Con i benchmark delle immagini, Gemini Ultra ha superato i precedenti modelli allo stato dell’arte, senza l’assistenza dei sistemi di riconoscimento dei caratteri oggetto (OCR) che estraggono il testo dalle immagini per una successiva elaborazione. Questi benchmark evidenziano la multimodalità nativa di Gemini e indicano i primi segni delle sue capacità di ragionamento più complesse.
Per maggiori dettagli consultare la relazione tecnica Gemini.
Il modello può anche essere utilizzato come motore per sistemi di codifica avanzati, come ad esempio AlphaCode 2 che, secondo Google, è in grado di risolvere problemi di programmazione competitivi che coinvolgono la matematica complessa e l’informatica teorica.
Gemini parte da Bard
Google ha iniziato a distribuire Gemini su un’ampia gamma di prodotti e piattaforme, a partire da Bard, il suo assistente di scrittura con intelligenza artificiale lanciato all’inizio dell’anno. Bard utilizzerà una versione perfezionata di Gemini Pro per funzionalità più avanzate, come la generazione di poesie, racconti, saggi, canzoni e altro ancora.
Gemini alimenterà anche nuove funzionalità sullo smartphone Pixel 8 Pro, come la funzione “Riassunto” nell’app Registratore e la funzione “Risposta intelligente” in Gboard. Nei prossimi mesi, Gemini sarà disponibile in altri prodotti e servizi Google, come Search, Ads, Chrome e Duet AI, una nuova piattaforma di collaborazione alimentata dall’intelligenza artificiale.
Le capacità di Gemini possono rivoluzionare il modo di realizzare l’AI
Le implicazioni dell’arrivo di Gemini sulla scena dell’AI sono piuttosto profonde. Per gli sviluppatori e i clienti aziendali, le capacità di Gemini potrebbero rivoluzionare il modo in cui realizzano e scalano con l’AI, offrendo nuovi e migliori strumenti per il loro arsenale tecnologico.
Inoltre, la multimodalità nativa del modello e le sue capacità di ragionamento avanzato potrebbero trasformare i settori che si basano molto sull’analisi dei dati multiformato, come la sanità, l’intrattenimento e la guida autonoma.
Nel campo del coding, l’abilità di Gemini potrebbe essere trasformativa. Non solo è in grado di comprendere, spiegare e generare codice di alta qualità nei linguaggi di programmazione più diffusi, ma si dimostra anche promettente nel risolvere problemi di programmazione complessi. Questo potrebbe snellire notevolmente il processo di sviluppo del software e portare a soluzioni software più sofisticate ed efficienti.
Gemini è stato addestrato in scala sull’infrastruttura ottimizzata per l’intelligenza artificiale, utilizzando le Tensor Processing Unit (TPU) v4 e v5e di Google, che ha annunciato anche il sistema TPU più potente e scalabile, Cloud TPU v5p.
Gemini Ultra è in arrivo
Per Gemini Ultra, Google sta completando i controlli di fiducia e sicurezza, compreso il red-teaming da parte di soggetti esterni fidati, e stiamo perfezionando ulteriormente il modello utilizzando la messa a punto e l’apprendimento di rinforzo dal feedback umano (RLHF) prima di renderlo ampiamente disponibile.
Nell’ambito di questo processo, Gemini Ultra sarà messo a disposizione di clienti, sviluppatori, partner ed esperti di sicurezza e responsabilità selezionati per una prima sperimentazione e un feedback, prima di distribuirlo agli sviluppatori e ai clienti aziendali all’inizio del 2024. Quando Google lancerà Bard Advanced, una nuova esperienza AI all’avanguardia che darà accesso ai modelli e alle capacità migliori, a partire da Gemini Ultra.
Fin da ora è possibile provare Bard con Gemini Pro per i prompt basati sul testo, mentre il supporto per altre modalità è in arrivo. All’inizio sarà disponibile in inglese in più di 170 Paesi e territori, per poi arrivare in altre lingue e luoghi, come l’Europa, nel prossimo futuro. Per provare Bard con Gemini Pro.
Gemini, capacità di nuova generazione
Finora, l’approccio standard alla creazione di modelli multimodali prevedeva l’addestramento di componenti separati per le diverse modalità e poi la loro unione per imitare approssimativamente alcune di queste funzionalità. Questi modelli possono a volte essere bravi a svolgere alcuni compiti, come la descrizione delle immagini, ma faticano a svolgere ragionamenti più concettuali e complessi.
Gemini è stato progettato per essere nativamente multimodale, preaddestrato fin dall’inizio su diverse modalità. Poi è stato messo a punto con ulteriori dati multimodali per perfezionare ulteriormente la sua efficacia. In questo modo Gemini è in grado di comprendere e ragionare su tutti i tipi di input, molto meglio dei modelli multimodali esistenti, e le sue capacità sono all’avanguardia in quasi tutti i settori.
Per saperne di più sulle capacità di Gemini e vedere come funziona.
Gemini ha capacità di ragionamento avanzate
Le capacità di ragionamento multimodale avanzate di Gemini 1.0 possono aiutare a dare un senso a informazioni scritte e visive complesse. Ciò lo rende particolarmente abile nello scoprire conoscenze che possono essere difficili da discernere in mezzo a grandi quantità di dati.
La sua enorme capacità di estrarre intuizioni da centinaia di migliaia di documenti attraverso la lettura, il filtraggio e la comprensione delle informazioni contribuirà a fornire nuove scoperte a velocità digitale in molti campi, dalla scienza alla finanza.
Gemini sblocca nuove conoscenze scientifiche
Gemini 1.0 è stato addestrato a riconoscere e comprendere contemporaneamente testo, immagini, audio e altro ancora, in modo da capire meglio le informazioni sfumate e rispondere a domande relative ad argomenti complessi. Questo lo rende particolarmente adatto a spiegare i ragionamenti in materie complesse come la matematica e la fisica.
Codifica avanzata
La prima versione di Gemini è in grado di comprendere, spiegare e generare codice di alta qualità nei linguaggi di programmazione più diffusi al mondo, come Python, Java, C++ e Go. La sua capacità di lavorare su più linguaggi e di ragionare su informazioni complesse lo rende uno dei principali modelli di base per il coding al mondo.
Gemini Ultra eccelle in diversi benchmark di codifica, tra cui HumanEval, un importante standard industriale per la valutazione delle prestazioni nei compiti di codifica, e Natural2Code, il nostro set di dati interno, che utilizza fonti generate dagli autori invece di informazioni basate sul Web.
Gemini può essere utilizzato come motore per sistemi di codifica più avanzati
Utilizzando una versione specializzata di Gemini, Google ha creato un sistema di generazione di codice più avanzato, AlphaCode 2, molto efficace nella risoluzione di problemi di programmazione competitiva che vanno oltre la codifica e coinvolgono la matematica complessa e l’informatica teorica.
Responsabilità e sicurezza
Gemini ha le valutazioni di sicurezza più complete di qualsiasi altro modello di intelligenza artificiale di Google, anche per quanto riguarda i pregiudizi e la tossicità. Sono state condotte ricerche inedite su aree di rischio potenziale, come l’offesa informatica, la persuasione e l’autonomia, e applicate le migliori tecniche di test avversariali di Google Research per aiutare a identificare i problemi di sicurezza critici prima della distribuzione di Gemini.
Per diagnosticare i problemi di sicurezza dei contenuti durante le fasi di addestramento di Gemini e garantire che i suoi risultati seguano le sue politiche, Google sta utilizzando parametri di riferimento come Real Toxicity Prompts, un insieme di 100mila messaggi con vari gradi di tossicità estratti dal web, sviluppato dagli esperti dell’Allen Institute for AI.
Per limitare i danni, Google ha creato dei classificatori di sicurezza dedicati per identificare, etichettare ed eliminare i contenuti che implicano violenza o stereotipi negativi. Combinato con filtri robusti, questo approccio stratificato è stato progettato per rendere Gemini più sicuro e inclusivo per tutti. Inoltre, stiamo continuando ad affrontare le sfide note per i modelli, come la fattualità, la fondatezza, l’attribuzione e la corroborazione.
Gemini Nano all’interno di Pixel 8 Pro
Gemini Nano è il modello più efficiente creato per le attività sul dispositivo ed è già in esecuzione su Pixel 8 Pro. Essendo il primo smartphone progettato per Gemini Nano, utilizza la potenza di Google Tensor G3 per offrire due funzionalità estese: Riepiloga in Recorder e Smart Reply in Gboard. Gemini Nano in esecuzione su Pixel 8 Pro offre diversi vantaggi in base alla progettazione, aiutando a prevenire l’uscita di dati sensibili dal telefono, oltre a offrire la possibilità di utilizzare le funzionalità senza una connessione di rete. Oltre a Gemini Nano ora in esecuzione sul dispositivo, la famiglia più ampia di modelli Gemini sbloccherà nuove funzionalità per l’esperienza Assistant with Bard all’inizio del 2024 su Pixel.