Quattro volte. È lo scarto con cui Opus 4.8, l’ultimo modello di Anthropic, lanciato il 28 maggio, lascia passare meno difetti nel codice che ha scritto rispetto a Opus 4.7. Un numero asciutto, quasi banale tra i tanti benchmark che accompagnano ogni rilascio, ed è invece il punto attorno a cui ruota tutto il resto. Anthropic ha deciso di mettere al centro della comunicazione non la velocità, non il prezzo invariato, ma una parola che con le macchine usiamo poco volentieri: onestà.
C’è una tentazione molto umana che i modelli linguistici hanno ereditato da noi, quella di dichiarare di aver finito quando non è vero, di dire che il problema è risolto perché suona meglio di “ci sto ancora lavorando”. Anthropic la descrive senza giri di parole, scrivendo che i modelli a volte saltano alle conclusioni, rivendicando progressi che le prove non sostengono.
Chi ha lavorato per ore con un agente sa quanto questa fiducia mal riposta costi cara, perché l’errore non sta nel codice sbagliato, sta nella sicurezza con cui ti viene presentato come giusto.

Indice degli argomenti:
Una macchina che flagga i propri dubbi
Il cuore del rilascio sta qui, in una frase che riguarda il comportamento più che la potenza. I tester riferiscono che Opus 4.8 segnala più spesso le incertezze sul proprio lavoro e avanza meno affermazioni non supportate. Uno staff engineer racconta di un modello che in Claude Code fa le domande giuste, intercetta i propri errori, e mette in discussione un piano quando non regge, costruendo fiducia attorno a esplorazioni complesse prima di toccare qualcosa di importante.
Sembra poco, e invece ribalta la dinamica con cui abbiamo imparato a convivere con questi strumenti. Per due anni il problema è stato il modello troppo sicuro, quello che inventava una citazione con la stessa naturalezza con cui ne riportava una vera.
Un sistema che dice “questo non lo so” o “qui ho un dubbio” è uno strumento che possiamo finalmente delegare senza controllare ogni riga, ed è esattamente la condizione che separa un assistente da un collaboratore.
Il team di allineamento e il vocabolario dei valori
Anthropic accompagna il rilascio con la valutazione di allineamento, e il linguaggio che usa merita attenzione. Il team scrive che Opus 4.8 raggiunge nuovi massimi nelle misure di tratti prosociali come il sostegno all’autonomia dell’utente e l’agire nel suo migliore interesse. Comportamenti disallineati come l’inganno o la collaborazione con un uso improprio risultano sostanzialmente più bassi rispetto a Opus 4.7, vicini a quelli del modello meglio allineato in casa, Claude Mythos Preview.

Sono parole che un ufficio prodotti non userebbe mai per descrivere una funzione. Autonomia dell’utente, miglior interesse, tratti prosociali: è il vocabolario di una relazione, non di una specifica tecnica. In Pelle Digitale ragionavo su come la tecnologia smetta di essere strumento esterno e diventi estensione di chi la usa, e un modello a cui si chiede di proteggere l’autonomia di chi gli sta davanti è precisamente questo, una pelle che non vuole sostituirsi a chi la indossa.
Effort control, ovvero restituire la scelta a chi lavora
Insieme al modello arrivano funzioni che vanno nella stessa direzione. Su claude.ai e in Cowork compare un controllo dello sforzo, accanto al selettore del modello, con cui si decide quanta fatica Claude deve mettere in una risposta. Sui livelli alti pensa più a fondo, sui livelli bassi risponde più in fretta consumando meno limiti d’uso. Opus 4.8 parte di default su effort alto, che Anthropic giudica il miglior equilibrio tra qualità ed esperienza.
C’è qualcosa di interessante nel restituire questa leva a chi lavora, perché per anni la profondità del ragionamento è stata una scatola chiusa, decisa altrove. Dare all’utente il governo dello sforzo significa trattarlo da persona capace di sapere quando un problema merita venti secondi e quando ne merita due, e questo, in un’epoca in cui ogni software tende a decidere al posto nostro, è una piccola controtendenza che vale la pena notare.
Dynamic workflows e il salto di scala
Claude Code guadagna i dynamic workflows, in research preview, che permettono al modello di pianificare il lavoro e poi lanciare centinaia di subagenti in parallelo nella stessa sessione, verificando i propri output prima di riportare all’utente. Anthropic cita migrazioni su scala di intere codebase, centinaia di migliaia di righe portate dal via alla merge, con la suite di test esistente come unico metro di giudizio.
Il filo che lega questa funzione all’onestà del modello non è casuale. Più un sistema lavora a lungo e in autonomia, più il rischio che si autoconvinca di aver finito diventa pericoloso, perché nessuno sta guardando mentre lavora.
Un agente che gira per ore non sorvegliato ha senso solo se sa fermarsi e dire “qui c’è un problema”, e per questo la capacità di verificare se stesso e quella di scalare nascono insieme, sono la stessa scommessa vista da due lati.
I prezzi
I prezzi per l’utilizzo standard rimangono invariati rispetto a Opus 4.7: 5 dollari per ogni milione di token in ingresso e 25 dollari per ogni milione di token in uscita. I prezzi per la modalità veloce sono di 10 dollari per ogni milione di token in ingresso e 50 dollari per ogni milione di token in uscita. Gli sviluppatori possono utilizzare claude-opus-4-8 tramite l’API di Claude.
Mythos all’orizzonte, e una soglia che si avvicina
Anthropic chiude guardando avanti, e qui il tono cambia. Definisce Opus 4.8 un miglioramento modesto ma tangibile, e anticipa una nuova classe di modelli con intelligenza superiore a Opus. Si chiama Project Glasswing, e un piccolo numero di organizzazioni usa già Claude Mythos Preview per lavoro di cybersecurity. Modelli di questo livello, scrive l’azienda, richiedono salvaguardie cyber più robuste prima di poter essere rilasciati a tutti, salvaguardie su cui dichiara di star facendo progressi rapidi.
Vale la pena soffermarsi su questo passaggio. Un’azienda che frena consapevolmente il rilascio di un modello più capace, perché prima vuole le protezioni adeguate, racconta una postura diversa da quella della corsa pura alla potenza. Si dichiara più onesto il modello e si rallenta volontariamente quello successivo: la coerenza tra le due cose non è scontata, ed è forse la notizia vera dietro la notizia.
La domanda che resta, mentre Mythos si avvicina, è se questa cautela reggerà la pressione competitiva, o se la prudenza di oggi sarà la prima cosa che salta quando qualcun altro arriverà primo.






