ai generativa

Claude Opus 4.8, meno errori e più dubbi dichiarati: la scommessa di Anthropic

Opus 4.8 punta su una qualità inattesa: la capacità del modello di ammettere i propri limiti e segnalare i dubbi. Il dato chiave è quattro volte meno errori lasciati passare nel codice rispetto alla versione precedente. Una direzione che riguarda meno le prestazioni e più il rapporto di fiducia tra chi lavora e lo strumento

Pubblicato il 28 mag 2026

Aggiungi tra i preferiti su Google

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Anthropic lancia Opus 4.8: quattro volte meno difetti nel codice e focus sull’onestà, con il modello che segnala dubbi invece di affermare falsità.
Miglioramenti comportamentali in Claude Code, controllo dello sforzo (effort control) e dynamic workflows per verificare output e lanciare subagenti in parallelo.
Prezzi invariati; Anthropic prepara modelli più potenti come Project Glasswing e Claude Mythos ma frena il rilascio per rafforzare le salvaguardie.

Riassunto generato con AI

Quattro volte. È lo scarto con cui Opus 4.8, l’ultimo modello di Anthropic, lanciato il 28 maggio, lascia passare meno difetti nel codice che ha scritto rispetto a Opus 4.7. Un numero asciutto, quasi banale tra i tanti benchmark che accompagnano ogni rilascio, ed è invece il punto attorno a cui ruota tutto il resto. Anthropic ha deciso di mettere al centro della comunicazione non la velocità, non il prezzo invariato, ma una parola che con le macchine usiamo poco volentieri: onestà.

C’è una tentazione molto umana che i modelli linguistici hanno ereditato da noi, quella di dichiarare di aver finito quando non è vero, di dire che il problema è risolto perché suona meglio di “ci sto ancora lavorando”. Anthropic la descrive senza giri di parole, scrivendo che i modelli a volte saltano alle conclusioni, rivendicando progressi che le prove non sostengono.

Chi ha lavorato per ore con un agente sa quanto questa fiducia mal riposta costi cara, perché l’errore non sta nel codice sbagliato, sta nella sicurezza con cui ti viene presentato come giusto.

Indice degli argomenti:

Una macchina che flagga i propri dubbi

Il cuore del rilascio sta qui, in una frase che riguarda il comportamento più che la potenza. I tester riferiscono che Opus 4.8 segnala più spesso le incertezze sul proprio lavoro e avanza meno affermazioni non supportate. Uno staff engineer racconta di un modello che in Claude Code fa le domande giuste, intercetta i propri errori, e mette in discussione un piano quando non regge, costruendo fiducia attorno a esplorazioni complesse prima di toccare qualcosa di importante.

Sembra poco, e invece ribalta la dinamica con cui abbiamo imparato a convivere con questi strumenti. Per due anni il problema è stato il modello troppo sicuro, quello che inventava una citazione con la stessa naturalezza con cui ne riportava una vera.

Un sistema che dice “questo non lo so” o “qui ho un dubbio” è uno strumento che possiamo finalmente delegare senza controllare ogni riga, ed è esattamente la condizione che separa un assistente da un collaboratore.

Embrace long-running tasks with Opus 4.8 and Claude Code

Guarda questo video su YouTube

Il team di allineamento e il vocabolario dei valori

Anthropic accompagna il rilascio con la valutazione di allineamento, e il linguaggio che usa merita attenzione. Il team scrive che Opus 4.8 raggiunge nuovi massimi nelle misure di tratti prosociali come il sostegno all’autonomia dell’utente e l’agire nel suo migliore interesse. Comportamenti disallineati come l’inganno o la collaborazione con un uso improprio risultano sostanzialmente più bassi rispetto a Opus 4.7, vicini a quelli del modello meglio allineato in casa, Claude Mythos Preview.

Sono parole che un ufficio prodotti non userebbe mai per descrivere una funzione. Autonomia dell’utente, miglior interesse, tratti prosociali: è il vocabolario di una relazione, non di una specifica tecnica. In Pelle Digitale ragionavo su come la tecnologia smetta di essere strumento esterno e diventi estensione di chi la usa, e un modello a cui si chiede di proteggere l’autonomia di chi gli sta davanti è precisamente questo, una pelle che non vuole sostituirsi a chi la indossa.

Effort control, ovvero restituire la scelta a chi lavora

Insieme al modello arrivano funzioni che vanno nella stessa direzione. Su claude.ai e in Cowork compare un controllo dello sforzo, accanto al selettore del modello, con cui si decide quanta fatica Claude deve mettere in una risposta. Sui livelli alti pensa più a fondo, sui livelli bassi risponde più in fretta consumando meno limiti d’uso. Opus 4.8 parte di default su effort alto, che Anthropic giudica il miglior equilibrio tra qualità ed esperienza.

C’è qualcosa di interessante nel restituire questa leva a chi lavora, perché per anni la profondità del ragionamento è stata una scatola chiusa, decisa altrove. Dare all’utente il governo dello sforzo significa trattarlo da persona capace di sapere quando un problema merita venti secondi e quando ne merita due, e questo, in un’epoca in cui ogni software tende a decidere al posto nostro, è una piccola controtendenza che vale la pena notare.

Dynamic workflows e il salto di scala

Claude Code guadagna i dynamic workflows, in research preview, che permettono al modello di pianificare il lavoro e poi lanciare centinaia di subagenti in parallelo nella stessa sessione, verificando i propri output prima di riportare all’utente. Anthropic cita migrazioni su scala di intere codebase, centinaia di migliaia di righe portate dal via alla merge, con la suite di test esistente come unico metro di giudizio.

Il filo che lega questa funzione all’onestà del modello non è casuale. Più un sistema lavora a lungo e in autonomia, più il rischio che si autoconvinca di aver finito diventa pericoloso, perché nessuno sta guardando mentre lavora.

Un agente che gira per ore non sorvegliato ha senso solo se sa fermarsi e dire “qui c’è un problema”, e per questo la capacità di verificare se stesso e quella di scalare nascono insieme, sono la stessa scommessa vista da due lati.

I prezzi

I prezzi per l’utilizzo standard rimangono invariati rispetto a Opus 4.7: 5 dollari per ogni milione di token in ingresso e 25 dollari per ogni milione di token in uscita. I prezzi per la modalità veloce sono di 10 dollari per ogni milione di token in ingresso e 50 dollari per ogni milione di token in uscita. Gli sviluppatori possono utilizzare claude-opus-4-8 tramite l’API di Claude.

Mythos all’orizzonte, e una soglia che si avvicina

Anthropic chiude guardando avanti, e qui il tono cambia. Definisce Opus 4.8 un miglioramento modesto ma tangibile, e anticipa una nuova classe di modelli con intelligenza superiore a Opus. Si chiama Project Glasswing, e un piccolo numero di organizzazioni usa già Claude Mythos Preview per lavoro di cybersecurity. Modelli di questo livello, scrive l’azienda, richiedono salvaguardie cyber più robuste prima di poter essere rilasciati a tutti, salvaguardie su cui dichiara di star facendo progressi rapidi.

Vale la pena soffermarsi su questo passaggio. Un’azienda che frena consapevolmente il rilascio di un modello più capace, perché prima vuole le protezioni adeguate, racconta una postura diversa da quella della corsa pura alla potenza. Si dichiara più onesto il modello e si rallenta volontariamente quello successivo: la coerenza tra le due cose non è scontata, ed è forse la notizia vera dietro la notizia.

La domanda che resta, mentre Mythos si avvicina, è se questa cautela reggerà la pressione competitiva, o se la prudenza di oggi sarà la prima cosa che salta quando qualcun altro arriverà primo.

@RIPRODUZIONE RISERVATA

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

Fabio Lalli è consulente in innovazione e AI, con oltre venticinque anni di esperienza nello sviluppo di prodotti digitali e nella trasformazione delle organizzazioni.

Ha fondato diverse realtà nel corso della sua carriera e completato un exit imprenditoriale nel settore digitale. Oggi guida Iconico, società specializzata nel supporto a startup e imprese nei processi di crescita, validazione di prodotto e go-to-market, e ZeroFive.ai, studio di consulenza strategica focalizzato sull’adozione dell’AI e sulla progettazione di architetture e modelli operativi aumentati dall’intelligenza artificiale.

Collabora con aziende di diversi settori su temi di AI transformation, modelli organizzativi, framework decisionali e misurazione dell’impatto economico delle tecnologie emergenti.

Partecipa alla community

0 Commenti

Più recenti

Più votati

Inline Feedback

Vedi tutti i commenti

Argomenti

Canali

Claude Opus 4.8, meno errori e più dubbi dichiarati: la scommessa di Anthropic

Una macchina che flagga i propri dubbi

Il team di allineamento e il vocabolario dei valori

Effort control, ovvero restituire la scelta a chi lavora

Dynamic workflows e il salto di scala

I prezzi

Mythos all’orizzonte, e una soglia che si avvicina

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

Leggi anche:

Partecipa alla community

Articoli correlati

Claude: l'assistente virtuale intelligente per i professionisti

Anthropic: storia, tecnologia e strategia dell'azienda che ha detto no al Pentagono

OpenAI e Anthropic testano a vicenda la sicurezza dei loro modelli AI. Ecco i risultati completi

Codice Rss

Codice Rss