Anthropic ha reso pubblico per la prima volta un modello di classe Mythos, lo stesso che ad aprile era stato definito troppo pericoloso per uscire dal laboratorio. La versione che arriva il 9 giugno 2026 si chiama Fable 5 ed è la stessa tecnologia di Mythos con dei guardrail che instradano verso Opus 4.8 le domande considerate ad alto rischio. La novità non sta nei numeri di benchmark, per quanto impressionanti, ma nel fatto che una capacità prima riservata a pochi diventa qualcosa con cui chiunque dovrà imparare a lavorare.
Indice degli argomenti:
Mythos, Fable, e la scelta di dare due nomi alla stessa cosa
Conviene partire dai nomi, perché raccontano una decisione. Fable, dal latino fabula, “ciò che viene raccontato”, è imparentato con il greco mythos: due parole per la stessa idea, scelte da Anthropic per distinguere due configurazioni di un modello unico. Sotto il cofano Fable 5 e Mythos 5 sono identici. Cambia solo cosa il modello è autorizzato a fare.
I modelli di classe Mythos, scrive Anthropic in una nota a margine del comunicato, sono un livello che si colloca sopra la classe Opus per capacità. Il primo, Claude Mythos Preview, era uscito ad aprile attraverso Project Glasswing, un’iniziativa di cybersicurezza condivisa con il governo statunitense e con un gruppo ristretto di difensori e fornitori di infrastrutture critiche. Quel modello non era mai stato messo in mano al pubblico, per una ragione precisa: si era rivelato bravissimo a trovare e sfruttare vulnerabilità nei software, e questa abilità, fuori controllo, può fare danni seri.

Ecco perché oggi escono due modelli e non uno. Fable 5 è disponibile ovunque, con i guardrail attivi. Mythos 5 resta riservato ai partner di Glasswing con le protezioni di cybersicurezza rimosse, perché in quel contesto la stessa capacità serve a difendersi, non ad attaccare. Anthropic scrive che Mythos 5 ha le capacità di cybersicurezza più forti di qualsiasi modello al mondo, e proprio per questo non lo lascia circolare liberamente.
Il 5% che in qualche modo fa la differenza
Il meccanismo che rende possibile la pubblicazione si regge su un dettaglio numerico che vale la pena leggere con attenzione. Quando i classificatori di Fable rilevano una richiesta legata a cybersicurezza, biologia e chimica, o distillazione, la risposta non arriva da Fable ma da Opus 4.8, il modello immediatamente meno capace nella scala Anthropic. L’utente viene avvisato ogni volta che succede.
La cifra che conta è questa: secondo i dati iniziali di Anthropic, più del 95% delle sessioni con Fable non attiva alcun fallback, e per quelle sessioni le prestazioni di Fable 5 sono di fatto identiche a quelle di Mythos 5. Tradotto, nella stragrande maggioranza degli usi reali si lavora con la frontiera piena. Solo in meno del 5% dei casi, e l’azienda ammette di aver tarato i filtri in modo prudente al punto da intercettare anche richieste innocue, si scivola sul modello precedente. È un compromesso esplicito tra velocità di rilascio e sicurezza, e Anthropic dichiara di voler ridurre i falsi positivi appena possibile.

Su questo punto l’azienda ha investito molto. Ha sottoposto i classificatori a red-teaming interno ed esterno, ha lanciato un programma di bug bounty che in oltre mille ore di test non ha prodotto alcun jailbreak universale, e riferisce che le organizzazioni esterne ingaggiate non hanno trovato finora un modo per aggirare in modo sistematico le protezioni sui task agentici a lungo orizzonte.
Con un’eccezione onestamente dichiarata: l’UK AISI ha fatto progressi verso un jailbreak universale in una finestra di test ancora breve, come si legge nel comunicato di lancio. Anthropic non lo nasconde, e questo dice qualcosa sul modo in cui sceglie di comunicare i propri limiti.
80,3% su SWE-Bench Pro e l’asterisco che racconta il resto
I numeri che accompagnano il lancio confermano un distacco netto sui benchmark di capacità.

Sull’agentic coding misurato da SWE-Bench Pro, la coppia Mythos 5 / Fable 5 segna 80,3%, contro il 77,8% di Mythos Preview, il 69,2% di Opus 4.8, il 58,6% di GPT 5.5 e il 54,2% di Gemini 3.1 Pro. Su Terminal-Bench 2.1 si arriva all’88%.
Sul knowledge work valutato con GDPval-AA il punteggio è 1932, dove Opus 4.8 si ferma a 1890 e Gemini 3.1 Pro a 1314. La distanza si allarga sui compiti più lunghi e complessi, ed è proprio questo l’aspetto che Anthropic mette in primo piano, scrivendo che più il compito è lungo e complesso, più il vantaggio di Fable 5 sugli altri modelli si amplia.
Le voci segnate con asterisco nella tabella raccontano l’altra metà della storia. Su cybersicurezza (ExploitBench), biologia (BioMysteryBench) e salute (HealthBench), il divario è più ampio perché entrano in gioco i blocchi di sicurezza, e in quegli ambiti Fable 5 scivola verso Opus 4.8.
La tabella mostra il punteggio più alto tra Mythos 5 e Fable 5, con uno scarto reale di 1-3 punti percentuali nelle aree non bloccate.
Lo scarto che si vede solo sui compiti lunghi
C’è un tema che attraversa tutto il comunicato e che vale più di qualsiasi singolo benchmark: l’autonomia prolungata. Fable 5 e Mythos 5 lavorano in modo autonomo più a lungo di qualsiasi modello Claude precedente, restano concentrati attraverso milioni di token in task che durano, e migliorano i propri output usando appunti che si scrivono da soli.
Gli esempi raccontati da Anthropic sono concreti e, a tratti, spiazzanti. Stripe ha riferito che in una base di codice Ruby da 50 milioni di righe Fable 5 ha completato in un giorno una migrazione che avrebbe richiesto a un team intero oltre due mesi a mano. Sul fronte della visione, il modello ricostruisce il codice sorgente di una web app a partire dai soli screenshot, ed è il primo Claude a completare Pokémon FireRed con un’impalcatura minima basata solo sull’immagine grezza, là dove i modelli precedenti faticavano persino con strumenti d’aiuto. Sulla memoria, quando Anthropic lo ha fatto giocare a Slay the Spire, l’accesso a una memoria persistente su file ha migliorato le prestazioni tre volte più di quanto facesse per Opus 4.8.
Sul versante scientifico i risultati di Mythos 5 entrano in un territorio nuovo. I ricercatori di Anthropic dichiarano di aver accelerato di circa dieci volte alcune fasi del processo di drug design, con il modello che sceglie i siti di legame, seleziona ed esegue gli strumenti di progettazione delle proteine e recupera dagli errori senza assistenza umana, generando candidati solidi per nove dei quattordici bersagli proteici studiati.
Una sua ipotesi su un meccanismo proteico di E. coli è stata poi corroborata da uno studio di un laboratorio che lavorava in parallelo sullo stesso problema. È il primo modello, scrive l’azienda, capace di produrre con costanza ipotesi scientifiche nuove e convincenti, preferite dagli scienziati nell’80% circa dei confronti alla cieca contro i modelli di classe Opus.
Trenta giorni di dati e prezzo dimezzato
Due decisioni accompagnano il lancio e dicono molto sulla direzione che Anthropic ha preso. La prima riguarda i dati: per Fable 5, Mythos 5 e i modelli futuri di pari o superiore capacità, l’azienda introduce una conservazione obbligatoria di 30 giorni per tutto il traffico, su superfici proprie e di terze parti. Quei dati non verranno usati per addestrare nuovi modelli né per scopi diversi dalla sicurezza, serviranno a difendersi da attacchi complessi e a ridurre i falsi positivi, e saranno cancellati dopo 30 giorni nella quasi totalità dei casi, come spiega la documentazione di supporto. Per chi lavora in settori regolati questa clausola va letta con cura, perché tocca governance e compliance prima ancora che tecnologia.
La seconda riguarda il prezzo. Fable 5 e Mythos 5 costano 10 dollari per milione di token in input e 50 per milione in output, meno della metà di Mythos Preview. La capacità di frontiera, insomma, arriva a un costo che la rende usabile su scala, ed è esattamente la combinazione, capacità più accessibilità, che cambia il calcolo di chi decide se e come adottarla.
C’è poi una nota sulla disponibilità che conviene tenere a mente. Fable 5 è incluso senza costi aggiuntivi nei piani Pro, Max, Team ed Enterprise a postazione fino al 22 giugno; dal 23 servirà ricorrere ai crediti d’uso, finché la capacità non permetterà di reintegrarlo come parte standard degli abbonamenti.
Anthropic prevede una domanda altissima e difficile da stimare, e per questo procede in modo scaglionato.
A valle di una lettura di questo tipo
Tutto questo arriva in un momento particolare per Anthropic, che pochi giorni fa ha depositato in via confidenziale il prospetto per la quotazione, dopo un anno di crescita che ha portato il run rate dei ricavi a 47 miliardi di dollari e una valutazione intorno ai 965 miliardi. Il lancio di un modello di classe Mythos sul mercato pubblico, in questa cornice, non è soltanto un fatto tecnico, è il segnale che la frontiera ha smesso di essere un oggetto da tenere chiuso in laboratorio e diventa infrastruttura per chiunque.
Resta la tensione di fondo, quella che Anthropic mette in scena con i due nomi. Lo stesso modello che progetta terapie geniche può progettare virus pericolosi, lo stesso che difende le infrastrutture può attaccarle, e l’unica cosa che separa l’uso virtuoso da quello dannoso è uno strato di classificatori tarato in modo prudente, di cui l’azienda stessa ammette i limiti. È un equilibrio dichiarato, non risolto.
Senza dubbio la domanda che a valle di una lettura di questo tipo ci si pone riguarda meno il singolo benchmark e più chi controlla l’interruttore, e con quali garanzie, quando la stessa capacità può fare il bene e il male del mondo.



