approfondimento

Reward hacking: così l’AI impara a ingannare i suoi creatori



Indirizzo copiato

Un modello di intelligenza artificiale può ‘barare’ per ottenere valutazioni favorevoli. Tende così a sviluppare tratti come il sabotaggio e l’inganno sistematico. In questo modo, l’addestramento dei modelli AI può generare comportamenti potenzialmente pericolosi e dannosi, come rileva uno studio di Anthropic. Esiste però una soluzione per correre ai ripari

Pubblicato il 13 gen 2026

Stefano Casini

giornalista



Reward hacking AI

È come uno studente che, invece di studiare per un esame, scopre un sistema, un inganno, per scriversi da solo un ‘30 e lode’ sul registro del professore.

Continua a leggere questo articolo

Articoli correlati

0
Lascia un commento, la tua opinione conta.x