“Jailbreak a ripetizione”, ovvero come le funzionalità di sicurezza dell’AI possono essere facilmente eluse. Un articolo di Anthropic illustra come i modelli linguistici di grandi dimensioni (LLM) possono essere indotti a generare risposte a richieste potenzialmente dannose.
large language model
“Jailbreak a ripetizione”: come eludere la sicurezza dell’AI
Un articolo di Anthropic svela come i modelli linguistici di grandi dimensioni (LLM) possano essere indotti a generare risposte a richieste potenzialmente dannose, aggirando le funzionalità di sicurezza. L’attacco denominato ‘jailbreak a ripetizione’ è semplice e molto efficace

Continua a leggere questo articolo
Argomenti
Canali



