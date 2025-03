Claude 3.7 Sonnet di Anthropic è un nuovo modello di intelligenza artificiale che consente agli utenti di decidere se vogliono una risposta rapida a una semplice domanda o una risposta più lunga che imiti il ragionamento umano – un approccio innovativo che potrebbe aiutare la startup di intelligenza artificiale a distinguersi in un panorama competitivo.

Con Claude 3.7 Sonnet, gli utenti potranno scegliere se far trascorrere al sistema di intelligenza artificiale più o meno tempo per elaborare una risposta, a seconda della complessità della domanda.

Anthropic ha dichiarato che il modello è stato introdotto il 24 febbraio per gli utenti gratuiti e a pagamento in un post sul blog, anche se inizialmente gli utenti non paganti non saranno in grado di utilizzare la potenza di calcolo aggiuntiva per rispondere alle loro richieste.

I modelli di ragionamento fioriscono

Negli ultimi mesi, un numero crescente di startup di AI, tra cui OpenAI, DeepSeek e xAI di Elon Musk, ha introdotto nuovi modelli in grado di dedicare più tempo a calcolare una risposta prima di rispondere, un processo che le aziende tecnologiche chiamano “ragionamento”. Ma mentre l’industria ha posizionato i sistemi di ragionamento come la prossima frontiera dell’AI, Anthropic scommette che a volte gli utenti desiderino un po’ più di semplicità.

“Quello che stiamo cercando di fare è rendere davvero semplice l’adozione di questa capacità laddove ha senso, ma senza che venga utilizzata laddove non ha senso”, ha dichiarato Mike Krieger, Chief product officer di Anthropic.

Rendere l’esperienza utente meno complicata

Approcci simili a quello di Anthropic potrebbero diventare presto più comuni. Dopo aver trascorso diversi anni a rilasciare modelli di intelligenza artificiale sempre più performanti a un ritmo sostenuto, alcuni sviluppatori di intelligenza artificiale stanno ora pensando a come rendere l’esperienza dell’utente meno complicata.

All’inizio di febbraio, Sam Altman, amministratore delegato di OpenAI, ha dichiarato che la sua azienda intende combinare i suoi modelli GPT, che hanno alimentato il chatbot ChatGPT originale, con la sua nuova serie di modelli “o” per costruire sistemi di intelligenza artificiale in grado di determinare automaticamente il tempo di riflessione su una domanda prima di rispondere.

Secondo Jared Kaplan, cofondatore e chief science officer dell’azienda, Anthropic potrebbe anche automatizzare la decisione di dedicare più o meno tempo al calcolo della risposta a una domanda.

Come funziona Claude 3.7 Sonnet

Se un utente chiede a Claude 3.7 Sonnet di dedicare più tempo all’elaborazione di una risposta, il modello mostrerà per iscritto i dettagli della catena di pensiero che segue, una scelta progettuale che anche OpenAI, xAI e DeepSeek hanno recentemente adottato. Kaplan ha detto che questo metodo può aiutare gli utenti a capire meglio come il modello arriva a una risposta e a capire dove si sbaglia quando si commette un errore.

Claude 3.7 Sonet: il ragionamento di frontiera reso pratico

Claude 3.7 Sonnet è sia un normale LLM che un modello di ragionamento. In modalità standard, Claude 3.7 Sonnet rappresenta una versione aggiornata di Claude 3.5 Sonnet. Nella modalità di pensiero esteso, Claude riflette su se stesso prima di rispondere, migliorando così le sue prestazioni in matematica, fisica, istruzioni, codifica e in molti altri compiti. In genere troviamo che la richiesta del modello funziona in modo simile in entrambe le modalità.

In secondo luogo, quando si usa Claude 3.7 Sonnet attraverso l’API, gli utenti possono anche controllare il budget per il pensiero: si può dire a Claude di pensare per non più di N token, per qualsiasi valore di N fino al suo limite di uscita di 128K token. In questo modo, è possibile scambiare la velocità (e il costo) con la qualità della risposta.

In terzo luogo, nello sviluppo dei modelli di ragionamento, è stato ottimizzato un po’ meno per i problemi delle competizioni matematiche e informatiche, spostando invece l’attenzione sui compiti del mondo reale che riflettono meglio l’uso effettivo dei LLM da parte delle aziende.

I primi test hanno dimostrato ottime performance di Claude nelle capacità di codifica in tutti i settori: Cursor ha notato che Claude è ancora una volta il migliore della classe per quanto riguarda i compiti di codifica del mondo reale, con miglioramenti significativi in aree che vanno dalla gestione di codebase complesse all’uso di strumenti avanzati. Cognition ha rilevato che Claude è migliore di qualsiasi altro modello nella pianificazione delle modifiche al codice e nella gestione degli aggiornamenti full-stack. Vercel ha evidenziato l’eccezionale precisione di Claude per i complessi flussi di lavoro degli agenti, mentre Replit ha impiegato con successo Claude per costruire sofisticate applicazioni web e dashboard da zero, dove altri modelli si bloccano.

Nelle valutazioni di Canva, Claude ha prodotto costantemente codice pronto per la produzione con un gusto progettuale superiore e una drastica riduzione degli errori.

Claude 3.7 Sonnet raggiunge prestazioni all’avanguardia su SWE-bench Verified, che valuta la capacità dei modelli di intelligenza artificiale di risolvere problemi software del mondo reale.

Claude 3.7 Sonnet comprenderà lo strumento “uso del computer”

Anthropic ha inoltre dichiarato di essere ancora concentrata sulla creazione di cosiddetti agenti, ovvero software in grado di svolgere compiti più difficili con poca supervisione umana. L’azienda ha dichiarato che Claude 3.7 Sonnet includerà “l’uso del computer”, uno strumento che l’azienda ha lanciato per la prima volta l’anno scorso e che è in grado di interpretare ciò che un utente vede sul proprio computer e, con il suo permesso, di compiere azioni per suo conto, come navigare in Internet, digitare e premere pulsanti.

Claude 3.7 Sonnet raggiunge lo stato dell’arte delle prestazioni su TAU-bench, un framework che mette alla prova gli agenti di intelligenza artificiale su compiti complessi del mondo reale con interazioni tra utenti e strumenti.

Claude Code

L’azienda sta rilasciando a un numero limitato di utenti una prima versione di un nuovo agente AI chiamato Claude Code, che ha lo scopo specifico di automatizzare le attività di codifica.

Claude Code è un prodotto soprattutto per lo sviluppo guidato dai test, il debug di problemi complessi e il refactoring su larga scala. Nei primi test, Claude Code ha completato in un solo passaggio attività che normalmente richiederebbero oltre 45 minuti di lavoro manuale, riducendo i tempi di sviluppo e le spese generali.

Nelle prossime settimane, Anthropic ha in programma di migliorarlo sulla base dell’utilizzo: migliorare l’affidabilità delle chiamate agli strumenti, aggiungere il supporto per i comandi di lunga durata, migliorare il rendering in-app e ampliare la comprensione delle capacità di Claude stesso.

L’obiettivo con Claude Code è quello di capire meglio come gli sviluppatori usano Claude per la codifica, per informare i futuri miglioramenti del modello.