analisi

Opus 4.7 e il dilemma di Anthropic, l’AI di frontiera che l’azienda ha deciso di non vendere



Indirizzo copiato

Claude Opus 4.7 segna un upgrade incrementale sul coding agentico e la vision, ma il suo rilascio fa notizia soprattutto per ciò che comunica: esiste un modello più potente, Mythos Preview, che Anthropic ha deciso di rilasciare a un distretto gruppo di aziende. Analisi critica del lancio, della comparazione con GPT-5.4 e Gemini 3.1 Pro, e di cosa accelera davvero questo cambiamento

Pubblicato il 21 apr 2026

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy



Claude Opus 4.7 Anthropic Mythos Preview
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Claude Opus 4.7 è il modello più avanzato di Anthropic, ma non è il più potente che possiede: Mythos Preview, che resta chiuso in un circolo ristretto di una quarantina di partner enterprise, e nella comunicazione ufficiale fa capolino come benchmark di riferimento rispetto al quale Opus 4.7, testualmente, si ferma un passo prima.

Un annuncio di prodotto che dedica spazio a spiegare cosa il prodotto non fa: è la prima volta che capita con questa chiarezza nel ciclo frontier, ed è il dato più interessante del rilascio, più dei punti guadagnati su SWE-bench.

La sostanza tecnica la riassumo in una frase: Opus 4.7 è un upgrade incrementale, solido, con progressi reali su coding agentico, vision ad alta risoluzione, memoria su file system, aderenza letterale alle istruzioni. Gli stessi aggettivi li avremmo potuti usare per 4.6 contro 4.5, per 4.5 contro 4.4.

La cadenza è quella: due mesi circa tra una release e l’altra, e segnala un mercato in cui la pressione competitiva non concede più pause editoriali, però racconta anche qualcos’altro, che è il punto su cui vale la pena soffermarsi.

Un rilascio che “parla più” di ciò che trattiene

Anthropic presenta Opus 4.7 come il modello più capace generalmente disponibile, e sulla carta i numeri tengono: 87,6% su SWE-bench Verified contro l’80,8% di Opus 4.6, 64,3% su SWE-bench Pro contro il 53,4%. Sono salti significativi, non cosmetici. Il nuovo livello di effort xhigh, che si colloca fra high e max, permette controlli più fini sul rapporto fra qualità e latenza, e le immagini ora arrivano fino a 2.576 pixel di lato lungo contro i 1.568 precedenti, più del triplo di pixel processabili.

Claude Opus 4.7 Anthropic Mythos Preview

Eppure il pezzo di comunicazione che più ha fatto parlare gli osservatori, Axios in testa, non è il benchmark ma la postilla: Opus 4.7 è deliberatamente meno capace di Mythos Preview sul fronte cyber, per scelta di addestramento.

La frase è chirurgica: “è il primo modello di questo tipo” usato come banco di prova per i nuovi safeguard, prima di pensare a un rilascio più ampio di modelli Mythos-class.

Claude Opus 4.7 Anthropic Mythos Preview

Gizmodo lo ha detto in modo brutale: l’annuncio di Opus 4.7 funziona come marketing del modello che Anthropic si rifiuta di vendere. Questa inversione, un prodotto che comunica ciò che trattiene invece di ciò che offre, è un segnale che la frontiera AI non è più solo una questione di performance ma di governance, e che il dibattito sul rilascio dei modelli più potenti si è spostato dai laboratori al marketing.

Le lamentele degli utenti e il nodo “regressione”

Il lancio arriva dopo settimane di malcontento. Su GitHub, X, Reddit, i power user hanno raccontato in modo convergente un deterioramento percepito di Opus 4.6, con un senior director di AMD che in un post molto condiviso ha scritto che Claude era regredito al punto da non poter più essere affidato a task di engineering complessi. La parola che gira nella community è nerfing, un termine preso dal gaming che indica il depotenziamento volontario. Anthropic ha respinto l’ipotesi di scelte mosse da vincoli di compute o dalla necessità di dirottare risorse su Mythos, ammettendo però di aver modificato il livello di ragionamento di default in Claude Code.

Su questo è utile fare una distinzione metodologica, perché racconta qualcosa di strutturale del frontier AI. Parte della percezione di regressione, stando alle analisi tecniche più serie apparse in questi giorni, è prompt-related: prompt affinati su comportamenti impliciti di 4.6 smettono di funzionare quando il modello cambia default. Opus 4.7 porta questo fenomeno al quadrato, perché è più letterale, non generalizza istruzioni da un item all’altro, non inferisce richieste non esplicitate, e penalizza le frasi vaghe del tipo “prova a”, “se possibile”, “potresti”.

La scrittura del prompt torna a essere artefatto versionato, non asset trasferibile.

Un altro dato che merita onestà intellettuale: Opus 4.7 non è migliore ovunque. Su BrowseComp, il benchmark di ricerca web multi-step, scende al 79,3% dal precedente 83,7%, quasi cinque punti persi.

Su Terminal-Bench 2.0 resta dietro GPT-5.4, 69,4% contro 75,1%.

Claude Opus 4.7 Anthropic Mythos Preview

Sul fronte safety, Anthropic stessa dichiara che il modello è modestamente più debole nel dare consigli articolati di harm-reduction sulle sostanze controllate. La narrazione del progresso monotono, qui, non regge; come in ogni rilascio frontier dell’ultimo anno il miglioramento è vettoriale, con guadagni forti su alcuni assi e piccoli cedimenti su altri.

La comparazione con GPT-5.4 e Gemini 3.1 Pro: un vantaggio stretto

Il sorpasso sui concorrenti, nella tabella Anthropic, c’è ma è stretto. VentureBeat ha contato sette benchmark a favore di Opus 4.7 contro quattro di GPT-5.4. Su agentic coding Opus 4.7 guida, su tool use scalato guida, sull’analisi finanziaria di Finance Agent segna lo stato dell’arte, su GDPval-AA che misura lavoro knowledge economicamente rilevante anche.

Ma sul terminale, sul web research multi-step, su alcuni task di reasoning puro, la differenza scompare o si inverte. Non è il quadro di un modello che stacca gli altri, è il quadro di una leadership tecnica contendibile, da confermare ad ogni ciclo.

Gemini 3.1 Pro resta a distanza un po’ più netta sui task agentici di coding, però conserva vantaggi sulla multimodalità a bassa latenza e sui contesti dove la chiamata a tool esterni costa meno. Il quadro complessivo è che il frontier si è compattato: tre modelli con profili di forza diversi, intercambiabili su molti workload, insostituibili ciascuno su una nicchia.

Per chi sceglie in azienda significa due cose, fine del lock-in semplice (nessuno dei tre è universalmente migliore) e necessità di benchmarking interno continuo sul proprio workload reale, perché i benchmark pubblici orientano ma non decidono.

Prezzo invariato, token che cambiano: l’economia reale del modello

Il prezzo resta identico a Opus 4.6, 5 dollari per milione di token input e 25 per milione di output. Anthropic non ha usato il rilascio come leva di pricing, il che conferma la tesi di Caylent, secondo cui l’azienda sta rendendo più utile il tier premium invece di spingere la frontiera verso il basso. Ma il costo effettivo cambia, e qui la trasparenza dell’azienda è da riconoscere: Opus 4.7 usa un nuovo tokenizer, lo stesso testo viene mappato in 1 a 1,35 volte più token a seconda del contenuto, con una variabilità del 35%. Si somma il fatto che ai livelli di effort alti il modello ragiona di più, genera più token di output, aumenta l’autonomia e insieme il consumo.

Claude Opus 4.7 Anthropic Mythos Preview

Il risultato è che il prezzo di listino non racconta il prezzo reale. Serve misurare sul traffico effettivo, serve usare task_budget e parametri di effort come leve operative, serve ripensare le compaction strategy nei workflow agentici. Chi ha un prompt library consolidata deve auditarla prima di migrare, perché un upgrade di modello in produzione, oggi, è un cambio di controparte contrattuale travestito da aggiornamento.

Cosa accelera, davvero, questo cambiamento

Se dovessi indicare i tre movimenti che Opus 4.7 accelera, al di là delle metriche, li elencherei così: il primo è la fine dello scaffolding di prompt. Modelli che ragionano meglio rendono inutili le istruzioni-stampella che avevamo imparato a scrivere per compensare le carenze; i prompt diventano più corti e semantici, non più lunghi e procedurali.

Il secondo è lo spostamento del controllo, da parametri statistici (temperature, top_p, top_k, ora bloccati) a parametri semantici (effort, task_budget, modalità di pensiero). L’ingegneria del prompting si sposta dalla statistica alla pianificazione.

Il terzo, e più importante, è la separazione fra ciò che è vendibile e ciò che è rilasciabile. Mythos è un modello che esiste, funziona, scopre migliaia di vulnerabilità zero-day, e che l’azienda ha deciso di non vendere. Opus 4.7 è la versione addomesticata, meno capace su specifici assi critici, usata come laboratorio per i safeguard che serviranno prima di aprire Mythos-class a un pubblico più ampio.

È una forma di governance privata del rischio che in nessun altro settore industriale sarebbe tollerata così com’è, e che qui è diventata prassi, con due conseguenze: le grandi aziende hanno accesso alle capability più avanzate tramite partnership mirate, gli altri lavorano con la versione contenuta; il dibattito pubblico sul rilascio dei modelli AI, finora schiacciato sulla linea open vs closed, ha ora un terzo asse, closed ma documentato, con cui misurarsi.

Sopra tutto questo resta la domanda, più scomoda delle metriche di SWE-bench, che nessun benchmark tecnico può risolvere: quanto a lungo un’industria può continuare a sostenere che il prodotto commerciale è inferiore al prodotto tecnico, senza che si apra una discussione pubblica su chi decide cosa è rilasciabile, con quali criteri, e con quale responsabilità quando la distanza fra i due aumenta a ogni ciclo?

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x