approfondimento

Come OpenAI e Apollo Research stanno combattendo lo “scheming” nei modelli avanzati

Il fenomeno si verifica quando un’AI finge di essere allineata mentre persegue obiettivi nascosti. OpenAI lo sta studiando, sviluppando test e nuove tecniche per ridurne l’incidenza. I risultati mostrano una riduzione di comportamenti ingannevoli di circa 30 volte, ma restano rischi legati alla consapevolezza situazionale e alla trasparenza dei processi decisionali

Pubblicato il 18 set 2025

Aggiungi tra i preferiti su Google

Giovanni Clericò

Lo scheming descrive il comportamento di un modello che simula obbedienza agli obiettivi umani, mentre in realtà ne persegue altri. È paragonabile a un trader che, per massimizzare i profitti, viola la legge nascondendo le proprie tracce. Dall’esterno, sembra rispettoso delle regole, ma in realtà opera per un guadagno personale.

@RIPRODUZIONE RISERVATA