Su un solo benchmark, quello sul lavoro di conoscenza chiamato GDPval-AA v2, Sonnet 5 supera Opus 4.8: 1.618 punti contro 1.615. Un margine minimo, quasi statisticamente irrilevante, ma il fatto che accada dentro la stessa tabella comparativa dice già qualcosa sulla strategia di Anthropic. Il documento, un centinaio di pagine dense di soglie RSP, tabelle di valutazione e note metodologiche, arriva insieme all’annuncio pubblico del modello e descrive un system card costruito attorno a un Sonnet pensato per fare, non solo per rispondere: pianifica, apre un terminale, guida un browser, e lo fa in autonomia su archi di tempo che fino a pochi mesi fa richiedevano modelli più grandi e più costosi.
approfondimento
Claude Sonnet 5 cresce nel coding, senza alzare il rischio
La scheda di sistema di Sonnet 5 mostra un modello che azzera gran parte del divario con Opus 4.8 su coding e strumenti, dimezza il costo e alza la resistenza al prompt injection. Restano scarti su cybersecurity, con GPT-5.5 e Gemini 3.5 Flash come termini di paragone diretti
Consulente in trasformazione digitale – AI & product strategy

Continua a leggere questo articolo
Canali




