Lo scheming descrive il comportamento di un modello che simula obbedienza agli obiettivi umani, mentre in realtà ne persegue altri. È paragonabile a un trader che, per massimizzare i profitti, viola la legge nascondendo le proprie tracce. Dall’esterno, sembra rispettoso delle regole, ma in realtà opera per un guadagno personale.
approfondimento
Come OpenAI e Apollo Research stanno combattendo lo “scheming” nei modelli avanzati
Il fenomeno si verifica quando un’AI finge di essere allineata mentre persegue obiettivi nascosti. OpenAI lo sta studiando, sviluppando test e nuove tecniche per ridurne l’incidenza. I risultati mostrano una riduzione di comportamenti ingannevoli di circa 30 volte, ma restano rischi legati alla consapevolezza situazionale e alla trasparenza dei processi decisionali

Continua a leggere questo articolo
Argomenti
Canali





