NEWS

Google Cloud annuncia aggiornamenti della partnership con Anthropic

Le due aziende sono determinate a lavorare insieme per far progredire la sicurezza dell’AI e annunciano la collaborazione con l’organizzazione no-profit MLCommons nell’ambito di un nuovo gruppo di lavoro per il benchmarking

Pubblicato il 9 nov 2023

Redazione

Google Cloud ha annunciato il 9 novembre nuovi aggiornamenti sulla sua partnership strategica con Anthropic. Le due aziende hanno lavorato a stretto contatto sin dalla fondazione di Anthropic nel 2021 e insieme stanno presentando nuovi aggiornamenti a sostegno dello sviluppo dell’intelligenza artificiale.

I punti chiave includono:

Anthropic è una delle prime aziende a implementare su scala i chip TPUv5e di Google Cloud, il nostro acceleratore di intelligenza artificiale più efficiente in termini di costi e scalabilità. TPU v5e consente ad Anthropic di servire il suo LLM Claude in modo efficiente e performante.
Anthropic sfutta ora anche i servizi di sicurezza di Google Cloud, tra cui Chronicle Security Operations, Secure Enterprise Browsing e Security Command Center, per garantire alle organizzazioni che distribuiscono i modelli di Anthropic su Google Cloud (e ai dipendenti e collaboratori di Anthropic) la protezione dalle minacce informatiche.
Infine, Anthropic e Google Cloud sono determinati a collaborare per far progredire la sicurezza dell’AI e annunciano la collaborazione con l’organizzazione no-profit MLCommons nell’ambito di un nuovo gruppo di lavoro per il benchmarking.

Indice degli argomenti:

Nuovi aggiornamenti per TPU v5e

Google Cloud ha annunciato inoltre nuovi aggiornamenti per TPU v5e, tra cui:

TPU v5e è ora generalmente disponibile (così come le tecnologie Singlehost inference e Multislice Training), offrendo ai clienti una piattaforma TPU unificata per i carichi di lavoro di formazione e inferenza.
Negli ultimi risultati di MLPerf™ Training 3.1 pubblicati oggi, TPU v5e ha dimostrato un miglioramento di 2,3 volte nel rapporto prezzo/prestazioni rispetto alla precedente generazione di TPU v4 per l’addestramento di modelli linguistici di grandi dimensioni (LLM). Questo risultato segue il benchmark MLPerf 3.1 Inferencing di settembre, che ha rilevato prestazioni di servizio per dollaro 2,7 volte superiori rispetto alla Cloud TPU v4.

Immagine che contiene testo, schermata, diagramma, CarattereDescrizione generata automaticamente

MLPerf™ 3.1 Training Risultati chiusi per v5e, dati interni di Google per TPU v4. A novembre 2023: Tutti i numeri normalizzati per chip seq-len=2048 per GPT-3 Modello da 175 miliardi di parametri implementato utilizzando le prestazioni relative al prezzo di listino pubblico di TPU v4 (3,22 dollari/chip/ora) e TPU v5e ( 1,2 dollaro/chip/ora).*1

Scala a 50K chip con la tecnologia Multislice Training

Cloud TPU Multislice Training è una tecnologia full-stack che consente l’addestramento di modelli AI su larga scala attraverso decine di migliaia di chip TPU. Permette di addestrare in modo semplice e affidabile modelli generativi di IA di grandi dimensioni, che possono accelerare il time-to-value e l’efficienza dei costi.

Di recente Google ha eseguito uno dei più grandi lavori di addestramento distribuito al mondo per LLM sul maggior numero di chip di acceleratori AI. Utilizzando Multislice e il formato di precisione INT8 guidato da AQT, ha scalato a oltre 50.000 chip TPU v5e per addestrare un modello LLM denso da 32B parametri, ottenendo il 53% di utilizzo effettivo dei flop del modello (MFU). A titolo di confronto, ha ottenuto il 46% di MFU quando ha addestrato un PaLM-540B su 6.144 chip TPU v4.

Inoltre, i test hanno evidenziato un’efficiente scalabilità, consentendo a ricercatori e professionisti di addestrare rapidamente modelli complessi e di grandi dimensioni, per contribuire a un’innovazione più rapida in un’ampia gamma di applicazioni di AI.

Immagine che contiene testo, schermata, linea, CarattereDescrizione generata automaticamente

Dati interni di Google per TPU v5e a partire da novembre 2023: tutti i numeri sono normalizzati per chip. seq-len=2048 per il modello linguistico del decodificatore a 32 miliardi di parametri implementato con MaxText. *2

I clienti utilizzano Cloud TPU v5e per l’addestramento e il servizio di AI

I clienti di Google Cloud si affidano a grandi cluster di Cloud TPU v5e per addestrare e servire LLM all’avanguardia in modo rapido ed efficiente. AssemblyAI, ad esempio, sta lavorando per democratizzare l’accesso a modelli vocali di AI all’avanguardia e ha ottenuto risultati notevoli con TPU v5e.

“Di recente abbiamo avuto l’opportunità di sperimentare la nuova Cloud TPU v5e di Google in GKE per verificare se questi chip AI appositamente costruiti potessero ridurre i nostri costi di inferenza. Dopo aver eseguito il nostro modello di riconoscimento vocale di produzione su dati reali in un ambiente reale, abbiamo scoperto che TPU v5e offre prestazioni fino a 4 volte superiori per dollaro rispetto alle alternative” , afferma Domenico Donato, vicepresidente della tecnologia di AssemblyAI

All’inizio di ottobre, in collaborazione con Hugging Face, Google ha realizzato una demo che mostra l’uso di TPU v5e per accelerare l’inferenza su Stable Diffusion XL 1.0 (SDXL). I diffusori di Hugging Face supportano ora il servizio di SDXL tramite JAX su Cloud TPU, consentendo così un’inferenza ad alte prestazioni e a costi contenuti per i casi d’uso della creazione di contenuti. Ad esempio, nel caso di carichi di lavoro per la generazione di testo-immagine, l’esecuzione di SDXL su una TPU v5e con otto chip può generare otto immagini nello stesso tempo necessario a un chip per creare una singola immagine.

Anche il team di Google Bard ha utilizzato Cloud TPU v5e per addestrare e servire il suo chatbot di intelligenza artificiale generativa.

“TPU v5e ha alimentato sia l’addestramento ML che i carichi di lavoro di inferenza per Bard sin dal primo lancio di questa piattaforma. Siamo molto soddisfatti della flessibilità di TPU v5e, che può essere utilizzata sia per l’addestramento su larga scala (migliaia di chip) sia per un efficiente servizio di ML che supporta i nostri utenti in oltre 200 paesi e in più di 40 lingue”, afferma Trevor Strohman, ingegnere software di Google Bard

Note

^{1. MLPerf™ v3.1 Training Closed, benchmark multipli come mostrato. Recuperato l’8 novembre, 2023 from}^{mlcommons.org}^{. Risultati 3.1-2004. Le prestazioni per dollaro non sono una metrica di MLPerf. I risultati di TPU v4 non sono verificati: non verificati dall’associazione MLCommons. Il nome e il logo MLPerf™ sono marchi di MLCommons Association negli Stati Uniti e in altri Paesi. Tutti i diritti sono riservati. L’uso non autorizzato è severamente vietato. Per ulteriori informazioni, consultare il}^sito^{www.mlcommons.org.
2. Il fattore di scala è il rapporto tra (throughput a una data dimensione del cluster) / (throughput alla dimensione del cluster di base). La dimensione del cluster di base è un pod v5e (ad esempio, 256 chip). Esempio: con una scala di 512 chip, abbiamo un throughput pari a 1,9 volte quello di una scala di 256 chip, il che porta a un fattore di scala di 1,9.
3. Per ricavare le prestazioni di TPU v5e per dollaro, dividiamo il throughput di addestramento per chip (misurato in token/sec) per il prezzo di listino su richiesta di 1,20 dollari, che è il prezzo per chip-ora (US$)}^{pubblicamente disponibile}^{per TPU v5e nella regione us-west4. Per ricavare le prestazioni di TPU v4 per dollaro, dividiamo il throughput di addestramento per chip (misurato in token/sec; risultati interni di Google Cloud, non verificati dall’associazione MLCommons) per il prezzo di listino su richiesta di 3,22 dollari, il prezzo su richiesta}^{pubblicamente disponibile}^{per chip-ora (US$) per TPU v4 nella regione us-central2.}