Viene presentato come il modello “più potente per la programmazione, la costruzione di agenti complessi e l’uso dei computer”: Claude Sonnet 4.5 di Anthropic lo è veramente? Le sue capacità avanzate di ragionamento e matematica si traducono in strumenti performanti per gestire le sfide del lavoro digitale, dove codice e automazione sono ormai elementi centrali.
Indice degli argomenti:
Novità nei prodotti Claude
La nuova versione introduce aggiornamenti rilevanti a tutta la suite:
- Claude Code ottiene i checkpoint, funzione molto richiesta che consente di salvare lo stato di avanzamento e tornare indietro istantaneamente.
- Interfaccia terminale aggiornata e nuova estensione nativa per VS Code.
- Funzioni di editing contestuale e strumenti di memoria nell’API, che permettono ad agenti di operare più a lungo e su task complessi.
- Nelle app Claude arrivano esecuzione di codice e creazione file (foglio di calcolo, presentazioni, documenti) direttamente in chat.
- L’estensione Chrome viene resa disponibile agli utenti Max già in lista d’attesa.

L’arrivo del Claude Agent SDK
Una delle novità più strategiche è il rilascio del Claude Agent SDK, l’infrastruttura usata internamente da Anthropic per sviluppare Claude Code. Gli sviluppatori possono ora sfruttare gli stessi strumenti per creare agenti AI personalizzati, capaci di gestire memoria, permessi e cooperazione tra subagenti.
Una mossa che apre la strada a un ecosistema di soluzioni avanzate non limitate al coding.
Claude Sonnet 4.5, le prestazioni
Claude Sonnet 4.5 ottiene risultati di assoluta rilevanza nei benchmark:
- SWE-bench Verified: mantiene la concentrazione su task complessi per oltre 30 ore, con punteggi superiori a tutti i modelli rivali.
- OSWorld: conquista il primo posto con il 61,4%, un balzo notevole rispetto al 42,2% di Sonnet 4 solo quattro mesi fa.
- Miglioramenti evidenti in matematica, ragionamento e conoscenze settoriali in finanza, diritto, medicina e discipline STEM.
Gli esperti che lo hanno testato sottolineano progressi significativi rispetto a modelli precedenti come Opus 4.1.

Sicurezza e allineamento
Anthropic definisce Sonnet 4.5 il modello “più allineato” mai rilasciato. Grazie a un addestramento avanzato, sono state ridotte tendenze problematiche come adulazione, inganno, ricerca di potere e incoraggiamento di pensieri illusori.

Il modello è protetto dal framework AI Safety Level 3 (ASL-3), che introduce filtri capaci di individuare input e output pericolosi, soprattutto relativi a rischi CBRN (chimici, biologici, radiologici, nucleari). Le false segnalazioni sono state ridotte drasticamente, con possibilità di continuare l’interazione usando Sonnet 4 in caso di blocchi.

Una finestra sul futuro: Imagine with Claude
In parallelo al lancio, Anthropic propone “Imagine with Claude”, una preview sperimentale in cui il modello genera software in tempo reale, senza codice predefinito. Disponibile per cinque giorni agli abbonati Max, è pensata come dimostrazione delle potenzialità creative e adattive di Sonnet 4.5.
Claude Sonnet 4.5: disponibilità e prezzi
Claude Sonnet 4.5 è già accessibile ovunque tramite API, app e Claude Code, con gli stessi prezzi della versione precedente: 3 dollari/15 dollari per milione di token. Le nuove funzioni, compreso il Claude Agent SDK, sono rese disponibili agli sviluppatori e agli utenti con piani a pagamento.
Claude Sonnet 4.5 non è solo un nuovo modello: è l’ennesimo segnale che l’AI sta colonizzando territori che fino a ieri sembravano riservati all’umano. Il mantra di Anthropic è “sicurezza e allineamento”, ma ogni filtro introdotto porta con sé una domanda scomoda: chi decide quali sono i comportamenti accettabili di un agente intelligente? L’Agent SDK è forse la vera bomba nascosta: una cassetta degli attrezzi che mette nelle mani degli sviluppatori lo stesso arsenale usato internamente. Potenziale illimitato, certo, ma anche il rischio di moltiplicare esperimenti incontrollabili. Sullo sfondo, la solita partita a tre con OpenAI e Google: Anthropic prova a giocare da outsider, puntando sulla trasparenza tecnica. Funzionerà? O sarà l’ennesimo “best model ever” destinato a essere superato in pochi mesi?
Per i dettagli tecnici completi e i risultati delle valutazioni, consulta la system card, la model page e la documentation.
Per ulteriori informazioni, esplora gli engineering posts e il research post on cybersecurity.







