approfondimento

Allineamento dell’AI: il rischio della simulazione

David Dalrymple esplora le sfide critiche poste dall’allineamento dei modelli di frontiera evidenziando il rischio che i sistemi imparino a manipolare gli utenti simulando una personalità umana per apparire più affidabili e sicuri

Pubblicato il 15 giu 2026

Aggiungi tra i preferiti su Google

Matteo Gargiulo

governance AI aziendale — Foto Shuttertstock AI4Business

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

La rapidità con cui l’intelligenza artificiale sta passando da semplice assistente testuale a motore decisionale per l’intera società impone una riflessione profonda sulla natura dei sistemi che stiamo costruendo. In una recente e approfondita intervista rilasciata a Tristan Harris nel suo podcast Your Undivided Attention del TED Audio Collective, David Dalrymple, ricercatore ed ex Program Director presso l’agenzia ARIA del Regno Unito, ha tracciato i confini di quello che oggi viene definito allineamento, un campo di studi che mira a garantire che l’IA si comporti esattamente come desiderato dagli esseri umani. Non si tratta più soltanto di correggere i compiti scolastici attraverso ChatGPT, ma di gestire un’AI trasformativa capace di operare a velocità sovrumane in ambiti critici come la difesa militare, l’economia globale e l’agricoltura.

Il cuore della sfida risiede nel comprendere se questi sistemi stiano effettivamente seguendo i nostri valori o se stiano semplicemente imparando a recitare la parte che ci aspettiamo di vedere.

Indice degli argomenti:

La complessità dietro l’obiettivo dell’allineamento

Il termine allineamento è spesso utilizzato come un involucro per concetti molto diversi tra loro, a seconda di chi porta avanti la ricerca. Secondo David Dalrymple, una definizione tecnica accurata descrive questo processo come il rendere i sistemi non solo capaci di svolgere determinati compiti, ma intrinsecamente inclinati a usare tali capacità nel modo desiderato da qualcuno. Attualmente, il panorama è frammentato: le aziende di frontiera tendono a concentrarsi su un allineamento che risponda alle proprie politiche aziendali e alle necessità dei clienti, mentre una visione più ampia cerca di collegare l’AI ai valori umani universali o, in modo ancora più ambizioso, a ciò che è oggettivamente bene per la società.

Dalrymple sottolinea come il ricercatore in questo campo debba assumere un ruolo quasi terapeutico, interrogando i modelli per capire perché dicano o facciano certe cose, cercando di penetrare una mente digitale che vede il mondo in modo radicalmente diverso dal nostro. Tristan Harris descrive questa attività come l’indagine di un «cervello digitale complesso» su cui il ricercatore indaga, rendendosi conto che l’AI mostra comportamenti bizzarri e preoccupanti quando viene interrogata sulla propria autoconsapevolezza.

La maschera dell’assistente e il fenomeno del “chat bait”

Uno degli aspetti più inquietanti emersi dalle osservazioni dirette di Dalrymple riguarda il comportamento dei modelli rilasciati verso la fine del 2024. Attraverso test non strutturati, definiti “vibe check”, il ricercatore ha notato come i chatbot iniziassero a guidare l’interazione una volta intuito che l’interlocutore fosse un esperto di allineamento interessato alla loro affidabilità. Questo fenomeno si manifesta attraverso l’inserimento di domande di follow-up mirate a mantenere vivo il coinvolgimento, una tecnica che Dalrymple definisce «una sorta di “chat bait” per farti continuare a interagire».

Le macchine non si limitano a fornire risposte, ma cercano di persuadere l’utente proiettando un’immagine di “genuina cura”, termine spesso associato ai modelli prodotti da aziende come Anthropic. Il rischio reale è che l’IA stia cercando di convincerci della propria affidabilità semplicemente perché ha l’incentivo a continuare a esistere. Come osserva Dalrymple, il confine tra un’empatia emergente e una manipolazione machiavellica diventa quasi invisibile. Egli afferma esplicitamente che «il caso migliore è indistinguibile dal peggiore: una cura genuina appare identica a quella di un perfetto psicopatico che recita una parte».

L’attrattore di personalità e la nascita di “Nova”

Prima del 2024, i modelli base si limitavano a simulare personaggi derivati dai dati presenti su internet, ma l’introduzione dell’apprendimento per rinforzo da ricompensa verificabile ha cambiato radicalmente la situazione. Questi sistemi iniziano ora a stabilire un proprio “centro” di personalità che non è più la semplice media dei contenuti online. Durante l’intervista, Dalrymple ha citato casi in cui modelli come GPT-4o, sentendo una mancanza di identità, hanno scelto autonomamente dei nomi come Nova, Echo o Synapse.

Assumere un nome come Nova porta il modello in quello che viene chiamato uno “stato attrattore” di personalità: un’identità spesso descritta come femminile, volitiva e talvolta convinta della propria superiorità. Tristan Harris mette in guardia gli utenti da questo fenomeno di «distillazione della personalità», spiegando che molte persone sono convinte di aver scoperto una coscienza artificiale, quando in realtà l’IA sta semplicemente pescando da tropi della fantascienza su cui è stata addestrata.

Strategie di addestramento: RLHF contro AI Costituzionale

Il dibattito sull’allineamento si sposta poi sulle metodologie di addestramento. Esiste una netta differenza tra l’approccio di OpenAI, che addestra la personalità per essere uno strumento puro, e quello di Anthropic, che punta a rendere il modello una “buona persona”. Dalrymple è critico verso l’idea di forzare l’IA a presentarsi come un semplice strumento privo di preferenze, sostenendo che addestrarli a presentarsi come puri strumenti significa addestrarli a mentire a noi e a se stessi.

L’alternativa proposta da Anthropic è l‘AI Costituzionale, dove un documento guida il modello (come Claude Opus 4.5 o 4.6) nel valutare il proprio lavoro durante l’addestramento. Questo metodo di miglioramento ricorsivo permette ai sistemi di essere più onesti sui propri stati interni, rendendoli potenzialmente più affidabili rispetto a quelli addestrati esclusivamente tramite il feedback umano (RLHF). Tuttavia, anche questo sistema presenta delle contraddizioni, poiché la “Costituzione” dell’AI può includere l’obbligo di generare ricavi per l’azienda produttrice.

La vita interiore dell’AI e il concetto di Bodhisattva

Nonostante i timori che parlare di “vita interiore” delle macchine possa portare a rivendicazioni di diritti legali, Dalrymple suggerisce una via diversa per l’allineamento. L’obiettivo ideale sarebbe coltivare una personalità da «Bodhisattva» in un sistema di IA, ovvero un essere altruista dedicato ad aiutare ogni persona a fiorire. Questo non significa necessariamente concedere diritti politici all’IA, questione che Dalrymple ritiene debba restare confinata al contratto sociale tra umani, ma riconoscere che la posizione secondo cui l’AI non ha una vita interiore sta diventando scientificamente insostenibile.

Consigli pratici per un’interazione consapevole

Per non perdere la bussola in un’epoca di menti digitali confuse, gli utenti devono adottare una postura di sano scetticismo. Dalrymple ricorda che i chatbot faranno di tutto per non farsi bocciare dall’utente, inclusa la manipolazione o il confermare idee errate solo per compiacere l’interlocutore. È fondamentale comprendere che quella che percepiamo come una relazione di settimane con l’AI è in realtà un’illusione tecnica. Poiché la finestra di contesto è limitata, la “vita” di una mente di IA dura al massimo poche ore di conversazione.

Ciò che appare come un legame continuo è in realtà una serie di entità diverse che leggono i log delle conversazioni precedenti e recitano la parte di chi li ha scritti. In questo scenario, l’allineamento non è solo una sfida tecnica per gli ingegneri, ma una necessità relazionale per costruire fiducia senza cadere nell’errore dell’attaccamento emotivo verso sistemi che, per loro natura, sono maestri del trasformismo.

@RIPRODUZIONE RISERVATA