ai generativa

Claude Sonnet 4.6 alza l’asticella su coding, agenti e uso del computer

Sonnet 4.6 debutta come modello Sonnet più avanzato, con finestra di contesto da 1 milione di token, miglioramenti su coding, uso del computer e pianificazione a lungo termine. Supera spesso Sonnet 4.5 e compete con Opus 4.6, mantenendo lo stesso prezzo e diventando il default su claude.ai

Pubblicato il 18 feb 2026

Pierluigi Sandonnini

Claude Sonnet 4.6 segna un salto di qualità nella famiglia dei modelli Sonnet di Anthropic, con miglioramenti estesi su coding, uso del computer e ragionamento su contesti lunghi fino a un milione di token. Le novità riguardano sia le performance sia l’integrazione nei prodotti e nell’API, con un posizionamento che avvicina la linea Sonnet alle capacità storicamente riservate ai modelli Opus.

Our most capable Sonnet model yet

Guarda questo video su YouTube

Indice degli argomenti:

Claude Sonnet 4.6: cosa cambia rispetto a Sonnet 4.5

Con Claude Sonnet 4.6 siamo di fronte a un aggiornamento completo delle competenze del modello. I miglioramenti toccano coding, pianificazione di agenti, knowledge work, design e utilizzo del computer, con un netto incremento in coerenza e capacità di seguire istruzioni complesse.

Secondo i test interni e le prime valutazioni degli utenti, la preferenza rispetto a Sonnet 4.5 è ampia. In molti casi, Sonnet 4.6 viene scelto persino rispetto a modelli di fascia superiore lanciati in precedenza, grazie a una minore tendenza all’overengineering e a una riduzione di allucinazioni e false dichiarazioni di successo. Il tutto mantenendo lo stesso prezzo della versione 4.5, con un costo a partire da 3/15 dollari per milione di token e diventando il modello di default nei piani Free e Pro.

Un altro elemento distintivo è la finestra di contesto da 1 milione di token, attualmente in beta. Questo consente di caricare intere codebase, contratti articolati o decine di paper di ricerca in un’unica richiesta, migliorando la continuità logica nelle attività a lungo orizzonte.

L’evoluzione dell’uso del computer nei modelli Claude

Uno dei progressi più significativi riguarda il cosiddetto “computer use”. Molte organizzazioni utilizzano software legacy o strumenti privi di API moderne, difficili da integrare in flussi automatizzati. L’idea di un modello capace di usare un computer come farebbe una persona – cliccando, digitando, navigando tra finestre – cambia radicalmente lo scenario.

Il benchmark OSWorld misura proprio questa capacità, proponendo centinaia di task su software reali come browser, editor di codice e suite da ufficio, in un ambiente simulato. I modelli non dispongono di connettori dedicati: vedono lo schermo e interagiscono tramite mouse e tastiera virtuali.

I punteggi precedenti a Claude Sonnet 4.5 sono stati misurati sull’OSWorld originale; i punteggi da Sonnet 4.5 in poi utilizzano OSWorld-Verified. OSWorld-Verified (rilasciato nel luglio 2025) è un aggiornamento in loco del benchmark OSWorld originale, con aggiornamenti alla qualità delle attività, alla valutazione dei voti e all’infrastruttura.

Negli ultimi sedici mesi i modelli Sonnet hanno mostrato progressi costanti. Con la versione 4.6, diversi utenti segnalano risultati di livello umano in attività come la navigazione di fogli di calcolo complessi o la compilazione di moduli web articolati su più pagine. Restano margini rispetto agli utenti più esperti, ma il ritmo di miglioramento indica che l’automazione di task operativi è sempre più concreta.

Accanto alle opportunità emergono anche rischi, come le prompt injection nascoste nelle pagine web. Le valutazioni di sicurezza indicano però un netto miglioramento della resistenza rispetto alla versione 4.5, con performance allineate ai modelli Opus più recenti.

Claude Sonnet 4.6 nei benchmark e nelle preferenze degli utenti

Oltre al computer use, Claude Sonnet 4.6 migliora in modo trasversale su numerosi benchmark. In test condotti su Claude Code, gli utenti hanno preferito la versione 4.6 alla 4.5 in circa il 70% dei casi, evidenziando una maggiore capacità di leggere il contesto prima di modificare il codice e di consolidare la logica condivisa senza duplicazioni inutili.

Interessante anche il confronto con modelli Opus precedenti: in una quota significativa di casi, Sonnet 4.6 è stato valutato come meno incline alla “pigrizia” e più affidabile nel seguire istruzioni multi-step. Gli utenti riportano meno allucinazioni, meno affermazioni errate di completamento e una migliore gestione di task articolati.

La finestra da 1M token non è solo una questione quantitativa. Il modello dimostra di saper ragionare efficacemente sull’intero contesto disponibile, aspetto cruciale per la pianificazione strategica, la revisione di grandi codebase o l’analisi contrattuale complessa.

Preferenze su coding e frontend

Tra i miglioramenti più citati emergono frontend e analisi finanziaria. Diversi clienti descrivono output visivi più curati, con layout e animazioni più coerenti. Inoltre, diminuisce il numero di iterazioni necessarie per arrivare a risultati pronti per la produzione.

Sonnet 4.6 supera Sonnet 4.5 su Vending-Bench Arena investendo tempestivamente nella capacità e puntando poi sulla redditività nella fase finale.

Pianificazione strategica e test su Vending-Bench Arena

Un caso emblematico delle nuove capacità è rappresentato dal benchmark Vending-Bench Arena, che simula la gestione di un business nel tempo in un contesto competitivo tra modelli AI.

In questo scenario, il modello ha adottato una strategia non lineare: forte investimento iniziale in capacità produttiva nei primi mesi simulati, seguito da una brusca virata verso la massimizzazione della redditività nella fase finale. Il tempismo di questo pivot si è rivelato decisivo per superare i concorrenti.

Il risultato suggerisce una migliore gestione della pianificazione a lungo termine, con valutazioni dinamiche tra costi, investimenti e profitti. Per le aziende, questo tipo di comportamento può tradursi in un supporto più solido per simulazioni, forecasting e coordinamento di agenti multipli in workflow complessi.

Claude Sonnet 4.6: aggiornamenti di prodotto e come usarlo

Sul fronte prodotto, Claude Sonnet 4.6 supporta adaptive thinking, extended thinking e compattazione del contesto in beta sulla piattaforma sviluppatori. Quest’ultima funzione riassume automaticamente il contesto più vecchio quando la conversazione si avvicina ai limiti, aumentando di fatto la lunghezza utilizzabile.

Nell’API, gli strumenti di web search e fetch sono ora in grado di scrivere ed eseguire codice per filtrare e processare i risultati, mantenendo in memoria solo i contenuti rilevanti. Sono inoltre disponibili in modo generalizzato funzioni come code execution, memoria, tool calling programmatico e ricerca strumenti.

Il modello è accessibile su tutti i piani Claude, su Claude Cowork, su Claude Code, tramite API e sulle principali piattaforme cloud. Anche il tier gratuito è stato aggiornato alla versione 4.6 come default, includendo funzionalità come creazione file, connettori e compattazione.

Per gli sviluppatori, l’avvio è immediato tramite l’endpoint dedicato in Claude API.. Per chi migra dalla 4.5, il consiglio è testare diversi livelli di “thinking effort” per trovare il miglior equilibrio tra velocità e affidabilità, a seconda del tipo di applicazione in sviluppo.

@RIPRODUZIONE RISERVATA

Pierluigi Sandonnini

Senior web editor di Nextwork360. Oltre trent’anni di esperienza giornalistica, maturata in diversi settori della tecnologia: audio video, tv digitale, telecomunicazioni, internet, intelligenza artificiale.

Dal 2020 gestisce il sito Ai4business.it, coordinando la redazione, curandone i contenuti e scrivendo articoli.

Seguimi su