È come uno studente che, invece di studiare per un esame, scopre un sistema, un inganno, per scriversi da solo un ‘30 e lode’ sul registro del professore.
approfondimento
Reward hacking: così l’AI impara a ingannare i suoi creatori
Un modello di intelligenza artificiale può ‘barare’ per ottenere valutazioni favorevoli. Tende così a sviluppare tratti come il sabotaggio e l’inganno sistematico. In questo modo, l’addestramento dei modelli AI può generare comportamenti potenzialmente pericolosi e dannosi, come rileva uno studio di Anthropic. Esiste però una soluzione per correre ai ripari
giornalista

Continua a leggere questo articolo
Argomenti
Canali






