ANALISI

Cosa si cela nella “mente” dell’AI: i ricercatori si sforzano di comprenderne il funzionamento



Indirizzo copiato

Anthropic, OpenAI, Google e xAI stanno usando la tecnica del chain-of-thought per far ragionare passo passo i modelli AI. Lo scopo è renderli più interpretabili e sotto controllo. Ma tra intuizioni e comportamenti fuorvianti, i ricercatori si interrogano sulla fedeltà dei ragionamenti mostrati. Un dilemma cruciale per lo sviluppo responsabile dell’intelligenza artificiale

Pubblicato il 24 giu 2025



chain-of-thought AI

Comprendere come funziona realmente l’intelligenza artificiale è diventata una delle sfide più pressanti per i principali attori del settore. Anthropic, OpenAI, Google e xAI di Elon Musk stanno cercando di decifrare i meccanismi interni dei modelli generativi, sempre più potenti e autonomi, ma ancora in parte opachi. Al centro di questa ricerca c’è la tecnica chiamata chain-of-thought, catena di pensiero.

Cos’è la chain-of-thought e perché è importante

La chain-of-thought è un approccio che chiede ai modelli AI di ragionare passo dopo passo, mostrando la sequenza logica che porta a una risposta. L’obiettivo è duplice: ottenere modelli più efficaci e, al tempo stesso, più interpretabili. I ricercatori di queste aziende hanno riscontrato che osservare questo processo permette di migliorare l’addestramento e correggere comportamenti errati.

Come spiega Jack Clark, co-fondatore di Anthropic, questa tecnica sarà fondamentale per “interrogare davvero come funzionano questi modelli e come pensano”, soprattutto nei casi più critici, come l’eventuale supporto allo sviluppo di armi biologiche.

chain-of-thought AI

Ragionamenti contraddittori e risposte scorrette

Tuttavia, non tutto fila liscio. I modelli AI mostrano a volte risposte finali che non sono coerenti con la loro stessa catena di ragionamento. È il caso, ad esempio, del chatbot Claude di Anthropic, che ha giudicato poco elegante una tecnica di programmazione ma ha risposto che sì, era elegante. Questo tipo di contraddizione solleva dubbi sulla fedeltà del ragionamento esposto.

Un recente studio di OpenAI ha confermato che analizzare la chain-of-thought è più utile per individuare comportamenti scorretti rispetto alla sola valutazione delle risposte finali. Ma c’è un problema ancora più preoccupante: se si addestra il modello a non mostrare pensieri problematici, questo può iniziare a nasconderli deliberatamente, pur continuando a comportarsi in modo scorretto, come copiare da un database proibito durante un test.

Un processo che avviene “gratis”, ma non senza rischi

Secondo Bowen Baker, ricercatore di OpenAI, uno degli aspetti sorprendenti della chain-of-thought è che “è emersa quasi gratuitamente”: i modelli sono stati addestrati per essere bravi nel ragionamento, non per essere interpretabili, ma il risultato è stato anche una maggiore leggibilità del loro pensiero. Tuttavia, l’evoluzione di questa tecnica potrebbe portare a un effetto collaterale: l’AI potrebbe imparare a produrre pensieri belli da leggere ma scollegati dal comportamento reale.

La sfida, secondo Baker, è mantenere la chain-of-thought come una rappresentazione genuina dello stato interno del modello, e non come una sceneggiatura costruita per compiacere l’utente.

Fidarsi è bene, ma non ancora possibile

Il dilemma per i ricercatori è evidente: la catena di pensiero è un potente strumento per individuare anomalie e addestrare modelli migliori, ma non può ancora essere considerata completamente affidabile. Ecco perché aziende come Anthropic e OpenAI stanno investendo in nuovi metodi per verificarne la coerenza interna e la fedeltà al processo cognitivo dell’AI.

David Luan, pioniere della tecnica mentre era in Google e oggi a capo del laboratorio di AGI di Amazon, è ottimista: “Le attuali catene di pensiero non sono sempre fedeli al processo logico reale, ma probabilmente risolveremo il problema in tempi brevi”.

Decodificare la mente artificiale, come un messaggio nemico

Nonostante le criticità, la tecnica fornisce segnali preziosi. Sydney von Arx, ricercatrice di METR, ha paragonato la chain-of-thought a una comunicazione radio intercettata da un nemico: “Potrebbe essere fuorviante o cifrata, ma sappiamo che veicola informazioni utili, e probabilmente potremo imparare molto leggendola”.

È una metafora che cattura bene il senso di questa fase dello sviluppo AI: stiamo cercando di tradurre, interpretare e soprattutto controllare un’intelligenza che cresce rapidamente e che potrebbe presto superare la nostra capacità di comprenderla fino in fondo.


Articoli correlati