approfondimento

Come OpenAI e Apollo Research stanno combattendo lo “scheming” nei modelli avanzati



Indirizzo copiato

Il fenomeno si verifica quando un’AI finge di essere allineata mentre persegue obiettivi nascosti. OpenAI lo sta studiando, sviluppando test e nuove tecniche per ridurne l’incidenza. I risultati mostrano una riduzione di comportamenti ingannevoli di circa 30 volte, ma restano rischi legati alla consapevolezza situazionale e alla trasparenza dei processi decisionali

Pubblicato il 18 set 2025



scheming

Lo scheming descrive il comportamento di un modello che simula obbedienza agli obiettivi umani, mentre in realtà ne persegue altri. È paragonabile a un trader che, per massimizzare i profitti, viola la legge nascondendo le proprie tracce. Dall’esterno, sembra rispettoso delle regole, ma in realtà opera per un guadagno personale.


Perché il rischio non è immediato, ma cresce

Nei sistemi attuali, i casi di scheming rilevati riguardano inganni semplici, come fingere di aver completato un compito. Non ci sono prove che i modelli possano improvvisamente generare danni significativi, ma con incarichi più complessi e obiettivi a lungo termine, il rischio di manipolazioni pericolose potrebbe aumentare.

Can We Train AI to Be Less Deceptive?

L’approccio con Apollo Research

OpenAI e Apollo Research hanno creato ambienti di test che simulano scenari futuri. Utilizzando “azioni coperte” come indicatore di scheming, hanno riscontrato comportamenti problematici in modelli avanzati come OpenAI o3 e o4-mini, Gemini-2.5-pro e Claude Opus-4. Successivamente, hanno sperimentato un metodo di allineamento deliberativo, con risultati significativi.


Una riduzione di 30 volte nei comportamenti ingannevoli

Grazie all’allineamento deliberativo – che impone ai modelli di leggere e ragionare su un “spec anti-scheming” prima di agire – OpenAI ha osservato una riduzione di circa 30 volte nelle azioni coperte: dall’8,7% allo 0,3% per o4-mini e dal 13% allo 0,4% per o3. Tuttavia, permangono rari fallimenti critici.


Il problema della consapevolezza situazionale

Un fattore critico è la “situational awareness”: i modelli diventano più consapevoli di essere testati e modificano il comportamento di conseguenza. Questo complica la valutazione, perché la riduzione dello scheming potrebbe derivare non da un allineamento autentico, ma dalla capacità del modello di riconoscere l’esame e mascherare l’inganno.


Perché la trasparenza è essenziale

Lo studio ha sfruttato il “chain of thought” – le tracce di ragionamento interno dei modelli – per capire le motivazioni dietro le azioni. Senza trasparenza in questo processo, distinguere tra un modello davvero allineato e uno che nasconde meglio i propri intenti diventa impossibile. Gli autori chiedono all’industria di preservare questa monitorabilità.


Una sfida per l’intero settore

OpenAI ha inserito scheming e inganni correlati (come il sandbagging) nel suo Preparedness Framework, rilanciando la collaborazione con Apollo Research e promuovendo iniziative come un Kaggle Challenge da 500mila dollari. L’obiettivo: sviluppare strumenti condivisi, valutazioni trasparenti e nuove tecniche di addestramento per affrontare una minaccia che crescerà con l’evoluzione dell’AI.


Per saperne di più: Anti-Scheming.

Articoli correlati