Anthropic ha annunciato Claude Opus 4.6, un aggiornamento sostanziale del suo modello di punta. La nuova versione rafforza in modo netto le capacità di programmazione, pianificazione e revisione del codice, consentendo al modello di operare con maggiore precisione anche su codebase di grandi dimensioni e su attività agentiche di lunga durata.
Per la prima volta nella famiglia Opus, il modello introduce in beta una finestra di contesto da 1 milione di token, segnando un cambio di passo nell’uso pratico dell’AI su documenti, conversazioni e progetti complessi.
Indice degli argomenti:
Coding, agenti e lavoro quotidiano: dove Opus 4.6 fa la differenza
Opus 4.6 non si limita allo sviluppo software. Le sue capacità potenziate si estendono a numerose attività professionali: analisi finanziarie, ricerca, gestione e creazione di documenti, fogli di calcolo e presentazioni. All’interno di Cowork, l’ambiente in cui Claude può operare in modo autonomo e multitasking, il modello combina queste competenze per lavorare attivamente al posto dell’utente.
Secondo Anthropic, il modello dimostra una maggiore capacità di concentrazione sulle parti più complesse dei compiti, accelerando invece quelle più semplici e mantenendo produttività anche in sessioni prolungate.
Prestazioni da record sui benchmark di settore
Sul fronte delle valutazioni indipendenti, Claude Opus 4.6 raggiunge risultati di punta. È primo nel benchmark di coding agentico Terminal-Bench 2.0 e guida la classifica su Humanity’s Last Exam, test di ragionamento multidisciplinare ad alta complessità.

Particolarmente rilevante il risultato su GDPval-AA, che misura le prestazioni su attività economicamente rilevanti in ambiti come finanza e diritto: Opus 4.6 supera il miglior concorrente diretto di circa 144 punti Elo e migliora di 190 punti rispetto alla versione precedente. Eccelle inoltre su BrowseComp, dimostrando una superiore capacità di trovare informazioni difficili online.

Addio al “context rot”: il vantaggio del lungo contesto
Uno dei miglioramenti più significativi riguarda la gestione dei contesti lunghi. Opus 4.6 riduce drasticamente il fenomeno del “context rot”, cioè il degrado delle prestazioni al crescere della lunghezza delle conversazioni.
Nel test MRCR v2 con contesto da 1 milione di token, il modello raggiunge il 76% di accuratezza nel recupero delle informazioni, contro il 18,5% della generazione precedente. Questo si traduce in una reale capacità di mantenere coerenza, memoria e precisione su volumi di testo prima impraticabili.

Sicurezza e allineamento restano centrali
Anthropic sottolinea che i guadagni di intelligenza non compromettono la sicurezza. Opus 4.6 mostra tassi molto bassi di comportamenti disallineati – come inganno, compiacenza o cooperazione con usi impropri – risultando allineato quanto, o più, del suo predecessore.
Il modello è stato sottoposto al più ampio programma di valutazione mai condotto dall’azienda, includendo nuovi test su benessere dell’utente, rifiuto di richieste pericolose e prevenzione di azioni dannose nascoste. Particolare attenzione è stata dedicata alla cybersicurezza, con l’introduzione di nuove sonde per individuare potenziali abusi.

Novità per sviluppatori e piattaforma API
Con Opus 4.6 arrivano anche importanti aggiornamenti di prodotto. L’API introduce il pensiero adattivo, che consente al modello di decidere autonomamente quando approfondire il ragionamento, e nuovi livelli di effort per bilanciare qualità, velocità e costi.
Debuttano inoltre la compattazione del contesto per conversazioni lunghe, il supporto a 128 mila token in output e l’opzione di inferenza limitata agli Stati Uniti. Il modello è disponibile su claude.ai, tramite API e sulle principali piattaforme cloud, con prezzi invariati, 5/25 dollari per milione di token. Per tutti i dettagli si può consultare la pagina dei prezzi.
Una descrizione dettagliata di tutte le valutazioni relative alle capacità e alla sicurezza è disponibile nella system card Claude Opus 4.6.

Claude entra sempre più nel lavoro d’ufficio
Anthropic rafforza anche l’integrazione con gli strumenti da ufficio. Claude in Excel gestisce attività più complesse e dati non strutturati con maggiore autonomia, mentre Claude in PowerPoint, in anteprima di ricerca, è in grado di generare presentazioni rispettando layout e branding aziendale.
L’obiettivo è chiaro: trasformare Claude in un assistente AI sempre più centrale nei flussi di lavoro quotidiani di sviluppatori, team e knowledge worker.





