Anthropic, rivale di OpenAI, ha svelato il 4 marzo la sua famiglia di modelli Claude 3, le prime versioni multimodali dell’azienda progettate per affrontare le principali preoccupazioni delle aziende riguardo l’AI generativa: costi, prestazioni e allucinazioni. La startup, che vanta investimenti miliardari da parte di Amazon e Google per sfidare il colosso OpenAI-Microsoft, ha presentato tre nuovi modelli della famiglia Claude 3: Haiku, Sonnet e Opus. Questi possono accettare e generare testo e immagini. I modelli mostrano livelli crescenti di capacità – Haiku, poi Sonnet e Opus – così come i prezzi.
Claude 3 supera GPT-3.5 e Gemini 1.0 Pro
In particolare, il documento tecnico di Anthropic su Claude 3 mostra tutti e tre i modelli che superano GPT-3.5 e Gemini 1.0 Pro di OpenAI in termini di conoscenza, ragionamento, matematica, risoluzione dei problemi, codifica e matematica multilingue. Opus supera addirittura GPT-4 e Gemini Ultra – i modelli più avanzati rispettivamente di OpenAI e Google – secondo quanto riportato da Anthropic. Opus mostra “livelli quasi umani di comprensione e fluidità nei compiti complessi, guidando la frontiera dell’intelligenza generale”, hanno scritto i ricercatori di Anthropic in un post sul blog.
Anthropic ha dichiarato che tutti e tre i modelli hanno inizialmente una finestra token da 200.000 (200k) ma sono in grado di inglobare più di un milione di token, disponibili per i clienti selezionati che necessitano di potenza di elaborazione extra. Tuttavia, Opus è anche il più costoso dei tre – 15 dollari per milione di token (MTok) per l’input e 75 dollari/MTok per l’output.
Per contro, GPT-4 Turbo di OpenAI è più economico a 10 dollari/MTok per l’input e 30 dollari/MTok per l’output ma con una finestra contestuale più piccola di 128k. Sonnet, che supera GPT-3.5 ed è alla pari con GPT-4 su diverse metriche di performance, costa 3 dollari/MTok per gli input e 15 dollari/MTok per gli output.
Haiku, il modello più economico a 25 centesimi/MTok in input e 1,25 dollari/MTok in output, supera comodamente GPT-3.5 e Gemini Pro ma non GPT-4 o Gemini Ultra.
I modelli Claude 3 sono stati addestrati su dati fino ad agosto 2023 ma possono accedere alle applicazioni di ricerca per ottenere informazioni aggiornate. Opus e Sonnet sono ora disponibili su claude.ai e sull’API Claude in 159 paesi, Haiku arriverà presto.
Prova Sonnet attraverso la versione gratuita del chatbot Claude AI qui.
Opus è disponibile nella versione a pagamento Claude Pro. Qui c’è la scheda del modello. Per i clienti aziendali, Sonnet è generalmente disponibile solo su Amazon Bedrock come servizio gestito. È in anteprima privata sul Vertex AI Model Garden di Google Cloud. Opus e Haiku arriveranno presto su entrambe le piattaforme. In arrivo anche per i modelli: chiamata di funzioni, codifica interattiva (REPL) e capacità più avanzate simili a un agente.
Claude 3: analisi, previsioni, creazione di contenuti, codifica e multilingue
Anthropic sta intensificando il gioco commerciale sviluppando i modelli Claude 3 per attrarre i clienti aziendali, mentre la competizione tra i modelli di AI linguistica e multimodale si intensifica. I modelli Claude 3 possono fare analisi, previsioni, creazione di contenuti, codifica e sono multilingue. L’aggiunta della capacità di immagini consentirà alle aziende di caricare grafici, grafiche e altre immagini nei modelli. (OpenAI ha fatto lo stesso con GPT-4 con GPT-4V che offre anche la visione). Tuttavia, Anthropic ha sottolineato che i modelli Claude 3 possono fornire “risposte quasi istantanee” in tempo reale che li rendono adatti per chat dal vivo con i clienti, auto-completamento ed estrazione dati in cui il tempo è essenziale. Ad esempio, ha detto che Haiku può leggere un denso articolo di ricerca con grafici di circa 10k token in meno di 3 secondi, con velocità sempre più rapide in arrivo. Sonnet è due volte più veloce di Claude 2 e 2.1, rendendolo più utile per il recupero delle conoscenze e l’automazione delle vendite, tra gli altri compiti. Mentre Opus ha la stessa velocità di Claude 2 e 2.1, è molto più capace, ha detto Anthropic.
Claude 3 soffre meno di allucinazioni
Una delle principali preoccupazioni delle aziende riguardo l’AI generativa sono le allucinazioni, o output errati. Prendi in considerazione il recente caso di Air Canada in cui il suo chatbot AI ha fornito informazioni di rimborso errate a un viaggiatore. La compagnia aerea è stata ordinata dal tribunale di risarcire il viaggiatore dopo che questo ha fatto causa. Anthropic afferma che Opus è due volte più bravo di Claude 2.1 nel dare risposte corrette e minimizzare le risposte sbagliate. I ricercatori hanno misurato l’accuratezza in tre categorie: risposte corrette, risposte sbagliate e la capacità di rispondere che non conosce la risposta invece di rispondere in modo errato. In modo cruciale, Anthropic dichiara che i modelli Claude 3 hanno una buona memoria dei dati nei prompt contestuali lunghi – afferma che altri modelli AI hanno problemi a ricordare la parte centrale dei prompt lunghi.
La startup sostiene che Opus abbia una “memoria quasi perfetta” con una precisione del 99%. Ciò significa che i modelli Claude 3 possono aderire meglio alla voce e alle linee guida di un marchio per le applicazioni rivolte ai clienti. Tuttavia, i modelli Claude 3 non possono ricordare i prompt dalle chat precedenti. Inoltre, non possono aprire link e si rifiutano di identificare persone nelle immagini.
Anthropic annuncia il rispetto dei diritti dei disabili
Da quando è stata fondata, due anni fa da ex ingegneri OpenAI, Anthropic ha dato priorità alla creazione di un’AI responsabile. I suoi modelli sono addestrati su quello che viene chiamata ‘Constitutional AI’, valori umani incarnati in regole per il modello per evitare output sessisti, razzisti e altri output tossici e aderire a principi come la Dichiarazione Universale dei Diritti Umani dell’ONU, secondo i ricercatori. Anthropic ha annunciato un’altra regola: il rispetto dei diritti delle persone disabili per mitigare qualsiasi output che promuova stereotipi e pregiudizi.
Per quanto riguarda il rischio che i suoi modelli vengano utilizzati per scopi nefasti, i modelli Claude 3 sono al Livello di Sicurezza IA 2, che Anthropic ha detto mostra “segni precoci di capacità pericolose – ad esempio la capacità di dare istruzioni su come costruire armi biologiche – ma dove l’informazione non è ancora utile a causa dell’affidabilità insufficiente o del fatto che non fornisce informazioni che (ad esempio) un motore di ricerca non potrebbe”.
I modelli Claude 3 sono stati addestrati su dati pubblici online e dati privati da terze parti così come sui propri dati. Anthropic afferma che i suoi modelli non accedono a siti protetti da password o gated o aggirano CAPTCHA. I prompt degli utenti e gli output generati sono esclusi dall’addestramento del modello AI. Ma Anthropic ha ridotto i livelli di cautela su questi modelli. I modelli precedenti possono essere un po’ troppo cauti rifiutandosi di rispondere a domande che si ritiene violino la politica dell’utente. I modelli Claude 3 possono capire meglio il contesto e come tali sono “significativamente meno propensi a rifiutarsi di rispondere a prompt che si avvicinano alle barriere del sistema rispetto alla generazione precedente di modelli”.