large language model

“Jailbreak a ripetizione”: come eludere la sicurezza dell’AI



Indirizzo copiato

Un articolo di Anthropic svela come i modelli linguistici di grandi dimensioni (LLM) possano essere indotti a generare risposte a richieste potenzialmente dannose, aggirando le funzionalità di sicurezza. L’attacco denominato ‘jailbreak a ripetizione’ è semplice e molto efficace

Pubblicato il 4 apr 2024



Anthropic accordo storico

“Jailbreak a ripetizione”, ovvero come le funzionalità di sicurezza dell’AI possono essere facilmente eluse. Un articolo di Anthropic illustra come i modelli linguistici di grandi dimensioni (LLM) possono essere indotti a generare risposte a richieste potenzialmente dannose.

Continua a leggere questo articolo

Articoli correlati