studio cert-agid

La geometria del rifiuto nei modelli linguistici: come comprendere e controllare il comportamento nello “spazio latente”



Indirizzo copiato

Un modello non rifiuta soltanto: prende posizione in uno spazio invisibile. Tra regioni latenti e direzioni sottili, il confine tra lecito e proibito si rivela meno rigido del previsto. Intervenire su quella geometria non significa forzare risposte, ma piegare traiettorie, mantenendo un equilibrio fragile tra controllo, coerenza e deriva

Pubblicato il 20 mar 2026



geometria refusal

Non vi è dubbio che negli ultimi anni modelli linguistici di grandi dimensioni abbiano mostrato capacità straordinarie nella generazione di testo, ma anche comportamenti complessi e talvolta difficili da interpretare. Uno di questi è il cosiddetto refusal, ovvero la tendenza del modello a rifiutare determinate richieste ritenute inappropriate o pericolose. Tradizionalmente, questo fenomeno è stato interpretato come il risultato di regole apprese durante l’addestramento, spesso legate a politiche di sicurezza.

Continua a leggere questo articolo

Articoli correlati

0
Lascia un commento, la tua opinione conta.x