AI GENERATIVA

Google DeepMind lancia Gemini 1.5

Questa versione offre prestazioni notevolmente migliorate e una maggiore capacità di comprensione dei contesti lunghi rispetto alla 1.0. La versione Pro viene fornita con una finestra contestuale standard da 128mila token, ma un gruppo limitato di sviluppatori e clienti aziendali potrà provarlo in anteprima con una finestra fino a 1 milione di token tramite AI Studio e Vertex AI

Pubblicato il 15 feb 2024

Pierluigi Sandonnini

giornalista

Google DeepMind ha presentato Gemini 1.5, evoluzione del suo più potente modello linguistico. Lo ha annunciato, sul blog aziendale, il CEO Demis Hassabis a nome del team Gemini. “Viviamo un periodo entusiasmante per l’intelligenza artificiale. Nuovi progressi nel campo hanno il potenziale di rendere l’IA sempre più utile per miliardi di persone nei prossimi anni. Da quando abbiamo introdotto Gemini 1.0, abbiamo testato, affinato e potenziato le sue capacità. Oggi, siamo lieti di annunciare il nostro modello di nuova generazione: Gemini 1.5”.

Indice degli argomenti:

Gemini 1.5 offre prestazioni notevolmente migliorate

Gemini 1.5 è più efficiente, con una nuova architettura Mixture-of-Experts (MoE). Il primo modello Gemini 1.5 rilasciato per i primi test è Gemini 1.5 Pro. È un modello multimodale di dimensioni medie, ottimizzato per scalare su una vasta gamma di compiti e offre prestazioni simili a quelle del modello 1.0 Ultra, il più grande fino ad oggi.

Gemini 1.5: maggiore comprensione dei contesti lunghi fino a 1 mln di token

Gemini 1.5 introduce anche una nuova caratteristica sperimentale nella comprensione dei contesti lunghi. Gemini 1.5 Pro viene fornito con una finestra contestuale standard da 128mila token, ma un gruppo limitato di sviluppatori e clienti aziendali può provarlo in anteprima con una finestra contestuale fino a 1 milione di token tramite AI Studio e Vertex AI.

Google sta lavorando attivamente su ottimizzazioni per migliorare la latenza, ridurre i requisiti computazionali e migliorare l’esperienza utente.

Lunghezze del contesto dei principali modelli fondamentali

Gemini 1.5 si basa sulla ricerca su Transformer e architettura MoE. Mentre un Transformer tradizionale funziona come una grande rete neurale, i modelli MoE sono divisi in reti neurali “esperte” più piccole. A seconda del tipo di input fornito, i modelli MoE imparano a attivare selettivamente solo i percorsi esperti più rilevanti nella sua rete neurale. Questa specializzazione aumenta enormemente l’efficienza del modello.

Google è stato un early adopter e pioniere della tecnica MoE per l’apprendimento profondo attraverso ricerche come Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 e altro ancora.

Le ultime innovazioni nell’architettura del modello consentono a Gemini 1.5 di apprendere compiti complessi più rapidamente e mantenere la qualità, pur essendo più efficiente da addestrare e servire. Queste efficienze stanno aiutando i team Google a iterare, addestrare e fornire versioni più avanzate di Gemini più velocemente.

Gemini 1.5: maggiore contesto, capacità più utili

La “finestra contestuale” di un modello AI è composta da token, che sono i mattoncini utilizzati per elaborare le informazioni. I token possono essere parti intere o sottosezioni di parole, immagini, video, audio o codice. Più grande è la finestra contestuale di un modello, più informazioni può assorbire ed elaborare in un dato prompt, rendendo il suo output più coerente, pertinente e utile.

Attraverso una serie di innovazioni nell’apprendimento automatico, Google ha aumentato la capacità della finestra contestuale del 1.5 Pro ben oltre i 32mila token originali per Gemini 1.0. Ciò significa che 1.5 Pro può elaborare enormi quantità di informazioni in una sola volta, inclusi 1 ora di video, 11 ore di audio, codebase con oltre 30mila righe di codice o oltre 700mila parole.

Nella sua ricerca, Google ha anche testato con successo fino a 10 milioni di token.

Ragionamento complesso su grandi quantità di informazioni

Gemini 1.5 Pro può analizzare, classificare e riassumere grandi quantità di contenuti all’interno di un dato prompt. Ad esempio, quando gli viene fornito la trascrizione di 402 pagine della missione Apollo 11 sulla Luna, può ragionare su conversazioni, eventi e dettagli trovati in tutto il documento.

Reasoning across a 402-page transcript | Gemini 1.5 Pro Demo

Guarda questo video su YouTube

Gemini 1.5 Pro può comprendere, ragionare e identificare dettagli curiosi nella trascrizione di 402 pagine della missione Apollo 11

Migliore comprensione e ragionamento attraverso le modalità Il 1.5 Pro può eseguire compiti di comprensione e ragionamento altamente sofisticati per diverse modalità, incluso il video.

Ad esempio, quando gli viene fornito un film muto di Buster Keaton di 44 minuti, il modello può analizzare accuratamente vari punti della trama ed eventi e persino ragionare su piccoli dettagli nel film che potrebbero facilmente essere persi. Gemini 1.5 Pro può identificare una scena in un film muto di Buster Keaton di 44 minuti quando gli viene fornito un semplice disegno a linee come materiale di riferimento per un oggetto reale.

Multimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo

Guarda questo video su YouTube

Risoluzione dei problemi pertinenti con blocchi più lunghi di codice

Il modello 1.5 Pro può eseguire compiti di risoluzione dei problemi più pertinenti su blocchi più lunghi di codice. Quando gli viene fornito un prompt con oltre 100mila righe di codice, può ragionare meglio attraverso gli esempi, suggerire modifiche utili e dare spiegazioni su come funzionano le diverse parti del codice.

Quando testato su un pannello completo di testi, codici, immagini, audio e valutazioni video, il modello 1.5 Pro supera il modello 1.0 Pro nell’87% dei benchmark utilizzati per sviluppare i nostri grandi modelli linguistici (LLM). E quando confrontato con l’1.0 Ultra sugli stessi benchmark, si comporta a un livello ampiamente simile.

Gemini 1.5 Pro mantiene alti livelli di prestazione anche con l’aumento della sua finestra contestuale. Nella valutazione Needle In A Haystack (NIAH), dove un piccolo pezzo di testo contenente un particolare fatto o affermazione è posto intenzionalmente all’interno di un lungo blocco di testo, il 1.5 Pro ha trovato il testo incorporato il 99% delle volte, in blocchi di dati lunghi fino a 1 milione di token.

Problem solving across 100,633 lines of code | Gemini 1.5 Pro Demo

Guarda questo video su YouTube

Gemini 1.5 Pro mostra anche grandi capacità di “apprendimento nel contesto”, il che significa che può apprendere una nuova abilità dalle informazioni fornite in un lungo prompt, senza aver bisogno di ulteriori affinamenti.

Google ha testato questa abilità sul benchmark Machine Translation from One Book (MTOB), che mostra quanto bene il modello impara da informazioni che non ha mai visto prima. Quando gli viene dato un manuale grammaticale per Kalamang, una lingua con meno di 200 parlanti in tutto il mondo, il modello impara a tradurre dall’inglese al Kalamang a un livello simile a una persona che impara dallo stesso contenuto. Poiché la lunga finestra contestuale del 1.5 Pro è la prima del suo genere tra i modelli su larga scala, stiamo continuamente sviluppando nuove valutazioni e benchmark per testare le sue capacità innovative.

Per ulteriori dettagli, consultare il rapporto tecnico su Gemini 1.5 Pro.

Anteprima limitata agli sviluppatori e clienti aziendali AI Studi e Vertex AI

Dal 15 febbraio Google offre un’anteprima limitata di Gemini 1.5 Pro agli sviluppatori e ai clienti aziendali tramite AI Studio e Vertex AI. Il modello 1.5 Pro sarà introdotto con una finestra contestuale standard da 128mila token quando il modello sarà pronto per un rilascio più ampio. Si prevede di introdurre presto fasce di prezzo che partono dalla finestra contestuale standard da 128mila token e arrivano fino a 1 milione di token, man mano che il modello migliora.

I primi tester possono provare la finestra contestuale da 1 milione di token gratuitamente durante il periodo di test, anche se dovrebbero aspettarsi tempi di latenza più lunghi con questa funzionalità sperimentale. Sono previsti anche significativi miglioramenti nella velocità.

Gli sviluppatori interessati a testare Gemini 1.5 Pro possono iscriversi in AI Studio, mentre i clienti aziendali possono contattare il loro team account Vertex AI.

@RIPRODUZIONE RISERVATA

Argomenti

Canali

Google DeepMind lancia Gemini 1.5

Gemini 1.5 offre prestazioni notevolmente migliorate

Gemini 1.5: maggiore comprensione dei contesti lunghi fino a 1 mln di token

Lunghezze del contesto dei principali modelli fondamentali

Gemini 1.5: maggiore contesto, capacità più utili

Ragionamento complesso su grandi quantità di informazioni

Risoluzione dei problemi pertinenti con blocchi più lunghi di codice

Anteprima limitata agli sviluppatori e clienti aziendali AI Studi e Vertex AI

Articoli correlati

Google lancia Gemini, la sua AI più potente di sempre

Confronto tra Google Gemini Ultra e ChatGPT 4 Turbo: ecco chi risponde meglio al test

Gemini AI, che cos’è e cosa fa la nuova AI di Google

Codice Rss

Codice Rss