Non vi è dubbio che negli ultimi anni modelli linguistici di grandi dimensioni abbiano mostrato capacità straordinarie nella generazione di testo, ma anche comportamenti complessi e talvolta difficili da interpretare. Uno di questi è il cosiddetto refusal, ovvero la tendenza del modello a rifiutare determinate richieste ritenute inappropriate o pericolose. Tradizionalmente, questo fenomeno è stato interpretato come il risultato di regole apprese durante l’addestramento, spesso legate a politiche di sicurezza.
studio cert-agid
La geometria del rifiuto nei modelli linguistici: come comprendere e controllare il comportamento nello “spazio latente”
Un modello non rifiuta soltanto: prende posizione in uno spazio invisibile. Tra regioni latenti e direzioni sottili, il confine tra lecito e proibito si rivela meno rigido del previsto. Intervenire su quella geometria non significa forzare risposte, ma piegare traiettorie, mantenendo un equilibrio fragile tra controllo, coerenza e deriva

Continua a leggere questo articolo
Argomenti
Canali






