AI GENERATIVA

Anthropic: i modelli Claude 3 superano GPT-4 e Gemini Ultra



Indirizzo copiato

Con investimenti da Amazon e Google, la startup sfida l’egemonia di Microsoft-OpenAI, vantando performance superiori e costi più accessibili. Tre i nuovi modelli: Haiku, Sonnet e Opus. Possono accettare e generare testo e immagini e sono offerti in livelli crescenti di capacità e di prezzi. Il modello 3.5 Sonnet può controllare autonomamente il computer

Aggiornato il 25 ott 2024



Anthropic Economic Index
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Anthropic, rivale di OpenAI, ha svelato il 4 marzo 2024 la sua famiglia di modelli Claude 3, le prime versioni multimodali dell’azienda progettate per affrontare le principali preoccupazioni delle aziende riguardo l’AI generativa: costi, prestazioni e allucinazioni. La startup, che vanta investimenti miliardari da parte di Amazon e Google per sfidare il colosso OpenAI-Microsoft, ha presentato tre nuovi modelli della famiglia Claude 3: Haiku, Sonnet e Opus. Questi possono accettare e generare testo e immagini. I modelli mostrano livelli crescenti di capacità – Haiku, poi Sonnet e Opus – così come i prezzi.

Il 23 ottobre 2024 Anthropic ha annunciato il rilascio dell’aggiornamento per Claude 3.5 Sonnet e un nuovo modello, Claude 3.5 Haiku.

Invece di creare strumenti specifici per aiutare Claude a completare le singole attività, Anthropic gli sta insegnando competenze informatiche generali, consentendogli di utilizzare un’ampia gamma di strumenti standard e programmi software progettati per le persone. Gli sviluppatori possono utilizzare questa capacità nascente per automatizzare processi ripetitivi, creare e testare software e condurre attività aperte come la ricerca. Claude 3.5 Sonnet è quindi in grado di controllare il computer, eseguendo in autonomia attività di routine.

Leggi tutto su Claude 3.5 Sonnet e Haiku cliccando qui.

claude 3

Claude 3 supera GPT-3.5 e Gemini 1.0 Pro

In particolare, il documento tecnico di Anthropic su Claude 3 mostra tutti e tre i modelli che superano GPT-3.5 e Gemini 1.0 Pro di OpenAI in termini di conoscenza, ragionamento, matematica, risoluzione dei problemi, codifica e matematica multilingue. Opus supera addirittura GPT-4 e Gemini Ultra – i modelli più avanzati rispettivamente di OpenAI e Google – secondo quanto riportato da Anthropic. Opus mostra “livelli quasi umani di comprensione e fluidità nei compiti complessi, guidando la frontiera dell’intelligenza generale”, hanno scritto i ricercatori di Anthropic in un post sul blog.

Anthropic ha dichiarato che tutti e tre i modelli hanno inizialmente una finestra token da 200.000 (200k) ma sono in grado di inglobare più di un milione di token, disponibili per i clienti selezionati che necessitano di potenza di elaborazione extra. Tuttavia, Opus è anche il più costoso dei tre – 15 dollari per milione di token (MTok) per l’input e 75 dollari/MTok per l’output.

Per contro, GPT-4 Turbo di OpenAI è più economico a 10 dollari/MTok per l’input e 30 dollari/MTok per l’output ma con una finestra contestuale più piccola di 128k. Sonnet, che supera GPT-3.5 ed è alla pari con GPT-4 su diverse metriche di performance, costa 3 dollari/MTok per gli input e 15 dollari/MTok per gli output.

Haiku, il modello più economico a 25 centesimi/MTok in input e 1,25 dollari/MTok in output, supera comodamente GPT-3.5 e Gemini Pro ma non GPT-4 o Gemini Ultra.

I modelli Claude 3 sono stati addestrati su dati fino ad agosto 2023 ma possono accedere alle applicazioni di ricerca per ottenere informazioni aggiornate. Opus e Sonnet sono ora disponibili su claude.ai e sull’API Claude in 159 paesi, Haiku arriverà presto.

Prova Sonnet attraverso la versione gratuita del chatbot Claude AI qui.

Opus è disponibile nella versione a pagamento Claude Pro. Qui c’è la scheda del modello. Per i clienti aziendali, Sonnet è generalmente disponibile solo su Amazon Bedrock come servizio gestito. È in anteprima privata sul Vertex AI Model Garden di Google Cloud. Opus e Haiku arriveranno presto su entrambe le piattaforme. In arrivo anche per i modelli: chiamata di funzioni, codifica interattiva (REPL) e capacità più avanzate simili a un agente.

Claude 3

Claude 3: analisi, previsioni, creazione di contenuti, codifica e multilingue

Anthropic sta intensificando il gioco commerciale sviluppando i modelli Claude 3 per attrarre i clienti aziendali, mentre la competizione tra i modelli di AI linguistica e multimodale si intensifica. I modelli Claude 3 possono fare analisi, previsioni, creazione di contenuti, codifica e sono multilingue. L’aggiunta della capacità di immagini consentirà alle aziende di caricare grafici, grafiche e altre immagini nei modelli. (OpenAI ha fatto lo stesso con GPT-4 con GPT-4V che offre anche la visione). Tuttavia, Anthropic ha sottolineato che i modelli Claude 3 possono fornire “risposte quasi istantanee” in tempo reale che li rendono adatti per chat dal vivo con i clienti, auto-completamento ed estrazione dati in cui il tempo è essenziale. Ad esempio, ha detto che Haiku può leggere un denso articolo di ricerca con grafici di circa 10k token in meno di 3 secondi, con velocità sempre più rapide in arrivo. Sonnet è due volte più veloce di Claude 2 e 2.1, rendendolo più utile per il recupero delle conoscenze e l’automazione delle vendite, tra gli altri compiti. Mentre Opus ha la stessa velocità di Claude 2 e 2.1, è molto più capace, ha detto Anthropic.

claude 3

Claude 3 soffre meno di allucinazioni

Una delle principali preoccupazioni delle aziende riguardo l’AI generativa sono le allucinazioni, o output errati. Prendi in considerazione il recente caso di Air Canada in cui il suo chatbot AI ha fornito informazioni di rimborso errate a un viaggiatore. La compagnia aerea è stata ordinata dal tribunale di risarcire il viaggiatore dopo che questo ha fatto causa. Anthropic afferma che Opus è due volte più bravo di Claude 2.1 nel dare risposte corrette e minimizzare le risposte sbagliate. I ricercatori hanno misurato l’accuratezza in tre categorie: risposte corrette, risposte sbagliate e la capacità di rispondere che non conosce la risposta invece di rispondere in modo errato. In modo cruciale, Anthropic dichiara che i modelli Claude 3 hanno una buona memoria dei dati nei prompt contestuali lunghi – afferma che altri modelli AI hanno problemi a ricordare la parte centrale dei prompt lunghi.

La startup sostiene che Opus abbia una “memoria quasi perfetta” con una precisione del 99%. Ciò significa che i modelli Claude 3 possono aderire meglio alla voce e alle linee guida di un marchio per le applicazioni rivolte ai clienti. Tuttavia, i modelli Claude 3 non possono ricordare i prompt dalle chat precedenti. Inoltre, non possono aprire link e si rifiutano di identificare persone nelle immagini.

claude 3

Anthropic annuncia il rispetto dei diritti dei disabili

Da quando è stata fondata, due anni fa da ex ingegneri OpenAI, Anthropic ha dato priorità alla creazione di un’AI responsabile. I suoi modelli sono addestrati su quello che viene chiamata ‘Constitutional AI’, valori umani incarnati in regole per il modello per evitare output sessisti, razzisti e altri output tossici e aderire a principi come la Dichiarazione Universale dei Diritti Umani dell’ONU, secondo i ricercatori. Anthropic ha annunciato un’altra regola: il rispetto dei diritti delle persone disabili per mitigare qualsiasi output che promuova stereotipi e pregiudizi.

Per quanto riguarda il rischio che i suoi modelli vengano utilizzati per scopi nefasti, i modelli Claude 3 sono al Livello di Sicurezza IA 2, che Anthropic ha detto mostra “segni precoci di capacità pericolose – ad esempio la capacità di dare istruzioni su come costruire armi biologiche – ma dove l’informazione non è ancora utile a causa dell’affidabilità insufficiente o del fatto che non fornisce informazioni che (ad esempio) un motore di ricerca non potrebbe”.

I modelli Claude 3 sono stati addestrati su dati pubblici online e dati privati da terze parti così come sui propri dati. Anthropic afferma che i suoi modelli non accedono a siti protetti da password o gated o aggirano CAPTCHA. I prompt degli utenti e gli output generati sono esclusi dall’addestramento del modello AI. Ma Anthropic ha ridotto i livelli di cautela su questi modelli. I modelli precedenti possono essere un po’ troppo cauti rifiutandosi di rispondere a domande che si ritiene violino la politica dell’utente. I modelli Claude 3 possono capire meglio il contesto e come tali sono “significativamente meno propensi a rifiutarsi di rispondere a prompt che si avvicinano alle barriere del sistema rispetto alla generazione precedente di modelli”.

Articoli correlati