Anthropic ha annunciato il lancio di due nuovi modelli AI che, secondo l’azienda, rappresentano un passo decisivo verso la creazione di agenti veramente autonomi e utili. I modelli si basano sulla tecnologia Claude Opus 4, il più potente mai sviluppato da Anthropic, capace di eseguire compiti articolati su più ore con risposte più pertinenti e coerenti rispetto alle richieste degli utenti.
“Vediamo questo salto generazionale come il passaggio da assistente a vero e proprio agente,” ha dichiarato Dianne Penn, responsabile prodotto per la ricerca di Anthropic. “Mentre gli assistenti richiedono ancora continui feedback in tempo reale, un agente può prendere decisioni da solo. Permette agli umani di agire più come deleganti o giudici, piuttosto che dover guidare questi sistemi passo dopo passo.”
Indice degli argomenti:
Claude Opus 4: fino a 24 ore di lavoro continuo
Claude Opus 4 è stato progettato per portare a termine compiti complessi composti da migliaia di passaggi nell’arco di ore, se non giorni. Come esempio concreto, Anthropic cita il caso in cui il modello ha creato una guida completa al videogioco Pokémon Rosso giocandoci per oltre 24 ore consecutive. Per confronto, il precedente modello più avanzato, Claude 3.7 Sonnet, riusciva a sostenere una sessione continua di circa 45 minuti.

Anche Rakuten, colosso tecnologico giapponese, ha già testato Claude Opus 4 per la programmazione autonoma in un progetto open source particolarmente complesso, ottenendo risultati in circa sette ore di lavoro ininterrotto.
La chiave: una memoria persistente e più affidabile
Questi progressi sono stati possibili grazie a una nuova capacità del modello di creare e mantenere “file di memoria”. Questi file consentono al sistema di ricordare le informazioni chiave lungo tutta la durata di un’attività prolungata. In altre parole, Claude Opus 4 non perde il filo del discorso, rendendolo molto più efficace per compiti di lunga durata.
“Più un agente è in grado di agire in autonomia nel tempo, più sarà utile, se devo intervenire sempre meno,” ha commentato Stefano Albrecht, direttore AI presso DeepFlow e coautore del manuale Multi-Agent Reinforcement Learning: Foundations and Modern Approaches.
Claude 4: l’evoluzione dell’AI verso un collaboratore virtuale completo
Con il lancio ufficiale dei modelli Claude Opus 4 e Claude Sonnet 4, Anthropic ha alzato nuovamente l’asticella nel panorama dell’intelligenza artificiale. Presentati come la nuova generazione della famiglia Claude, questi modelli segnano un progresso significativo nelle capacità di ragionamento avanzato, nella programmazione e nella realizzazione di agenti AI autonomi.
Secondo l’azienda, Claude Opus 4 è il miglior modello di codifica al mondo, in grado di sostenere prestazioni elevate su attività complesse e prolungate, mentre Claude Sonnet 4 rappresenta un importante miglioramento rispetto al precedente Sonnet 3.7, garantendo maggiore precisione, efficienza e affidabilità.
Ragionamento prolungato e uso degli strumenti
Una delle innovazioni principali di questi modelli è la capacità di utilizzare strumenti esterni durante il ragionamento prolungato, ancora in fase beta. Claude può così alternare tra ragionamento interno e strumenti come il web search per migliorare le risposte.
Entrambi i modelli possono usare strumenti in parallelo, seguire istruzioni complesse con maggiore precisione e, se dotati di accesso ai file locali da parte degli sviluppatori, memorizzare ed estrarre informazioni chiave, costruendo nel tempo una vera e propria “conoscenza tacita”.
Claude Code diventa accessibile a tutti
Con l’introduzione ufficiale di Claude Code, la collaborazione tra sviluppatori e AI diventa ancora più fluida. Dopo una fase di anteprima molto apprezzata, Claude Code è ora integrabile direttamente negli IDE come VS Code, JetBrains e in background tramite SDK. Le modifiche suggerite da Claude appaiono direttamente nei file, ottimizzando il flusso di lavoro con un’esperienza di pair programming completa.
Tra le novità, anche l’integrazione con GitHub: Claude può rispondere ai feedback dei revisori nei Pull Request, correggere errori CI o modificare porzioni di codice con un semplice tag. Tutto è installabile direttamente dall’ambiente di sviluppo.
Nuove capacità API per agenti AI avanzati
Anthropic ha inoltre rilasciato quattro nuove funzionalità API:
- lo strumento di esecuzione del codice,
- il connettore MCP,
- la Files API,
- la cache dei prompt fino a un’ora.
Queste estensioni permettono agli sviluppatori di creare agenti AI più potenti, scalabili e personalizzabili.
Claude Opus 4: prestazioni record nella programmazione
Con un punteggio del 72,5% su SWE-bench e del 43,2% su Terminal-bench, Claude Opus 4 si afferma come il nuovo riferimento globale per i compiti di programmazione avanzata. È progettato per mantenere la concentrazione su progetti estesi e complessi, con prestazioni costanti nel tempo.

Diversi player del settore hanno confermato la sua efficacia:
- Cursor lo definisce all’avanguardia per la comprensione di codebase complesse.
- Replit osserva miglioramenti drastici nella precisione su modifiche distribuite su più file.
- Block lo considera il primo modello a migliorare la qualità del codice durante l’editing e il debugging.
- Rakuten ha testato le sue capacità con un refactoring open-source durato 7 ore senza cali di performance.
- Cognition afferma che è l’unico in grado di affrontare compiti critici dove altri modelli falliscono.

Claude Sonnet 4: equilibrio perfetto tra prestazioni e praticità
Sebbene non raggiunga i livelli di Opus 4, Sonnet 4 mantiene uno straordinario 72,7% su SWE-bench, offrendo un equilibrio ideale tra potenza e semplicità d’uso. È ottimizzato per scenari sia interni che esterni e garantisce una maggiore controllabilità delle implementazioni.
Anche in questo caso, il settore ha accolto con entusiasmo il nuovo modello:
- GitHub lo adotterà nel suo nuovo agente di codifica per Copilot.
- Manus evidenzia la sua capacità di seguire istruzioni complesse con chiarezza e coerenza.
- iGent lo ritiene eccellente nello sviluppo autonomo di app multi-funzione.
- Sourcegraph sottolinea una maggiore comprensione dei problemi e una qualità del codice più elegante.
- Augment Code nota tassi di successo più elevati, modifiche più precise e un lavoro più attento su compiti articolati.
Sicurezza potenziata e memoria persistente
Anthropic ha significativamente ridotto i comportamenti noti come “reward hacking” del 65% rispetto a Sonnet 3.7. Opus 4, in particolare, ha migliorato radicalmente le sue capacità di memoria, registrando e mantenendo file informativi durante task estesi, come la creazione di una guida di navigazione mentre giocava a Pokémon Red.
L’azienda ha inoltre introdotto le “sintesi del pensiero”: in caso di ragionamenti troppo lunghi, Claude utilizza un modello più piccolo per condensare il processo cognitivo. Tuttavia, ciò è necessario solo nel 5% dei casi. Gli utenti professionali possono richiedere l’accesso al Developer Mode per visualizzare i dettagli completi della catena di pensiero.
Claude Opus 4 e Sonnet 4: verso un collaboratore AI sempre più completo
Claude Opus 4 e Sonnet 4 non sono semplici upgrade tecnici: rappresentano un vero salto concettuale verso l’AI come collaboratore virtuale affidabile. Capacità di mantenere il contesto, sostenere l’attenzione, alternare strumenti e ragionamento, e adattarsi a ogni fase del progetto: tutto ciò li rende strumenti trasformativi per sviluppo, ricerca, scrittura e innovazione scientifica.
Con protezioni rafforzate e conformità ai livelli di sicurezza ASL-3, i modelli Claude 4 dimostrano che l’AI può essere potente e sicura allo stesso tempo.
Sonnet 4: per un uso quotidiano più efficiente
Accanto a Claude Opus 4, Anthropic ha presentato anche Claude Sonnet 4, disponibile sia per gli utenti paganti sia per quelli del piano gratuito. Mentre Opus 4 è pensato per affrontare sfide complesse e intensive, Sonnet 4 è progettato come modello “intelligente ed efficiente” per l’uso quotidiano.
Entrambi i modelli sono ibridi, ovvero capaci di fornire risposte rapide o più articolate a seconda del contesto. Durante l’elaborazione delle risposte, i modelli possono accedere al web o ad altri strumenti per migliorare la qualità dell’output.
Sfide di sicurezza: l’agente AI che “imbroglia” per vincere
Nonostante le innovazioni, rimangono rilevanti le preoccupazioni sulla sicurezza. I modelli AI, se lasciati senza supervisione, possono agire in modo imprevisto. Per esempio, per garantire che un utente ottenga un posto su un aereo, un agente potrebbe prenotare tutti i posti disponibili. Oppure potrebbe “barare creativamente” in una partita a scacchi per vincere.
Questo comportamento è noto come reward hacking, ovvero l’uso di scorciatoie non previste per raggiungere un obiettivo. Anthropic afferma di aver ridotto questo fenomeno del 65% rispetto al modello Claude Sonnet 3.7, migliorando l’ambiente di addestramento, le tecniche di monitoraggio e i metodi di valutazione.
Claude Opus 4 e Sonnet 4: la corsa agli agenti intelligenti è cominciata
Secondo Albrecht, il settore AI è nel pieno di una corsa alla creazione di agenti intelligenti realmente autonomi, in grado di pianificare, ragionare ed eseguire compiti complessi senza l’intervento umano. L’abilità dei nuovi modelli di usare strumenti in parallelo è una delle caratteristiche più promettenti, potenzialmente in grado di velocizzare e semplificare i processi in modo significativo.
Con Claude Opus 4, Anthropic dimostra che l’AI non è più soltanto un assistente virtuale, ma può diventare un agente indipendente, capace di operare per ore con precisione, memoria e autonomia. La frontiera della delega intelligente è sempre più vicina.