studio cert-agid

La geometria del rifiuto nei modelli linguistici: come comprendere e controllare il comportamento nello “spazio latente”

Un modello non rifiuta soltanto: prende posizione in uno spazio invisibile. Tra regioni latenti e direzioni sottili, il confine tra lecito e proibito si rivela meno rigido del previsto. Intervenire su quella geometria non significa forzare risposte, ma piegare traiettorie, mantenendo un equilibrio fragile tra controllo, coerenza e deriva

Pubblicato il 20 mar 2026

Pierluigi Sandonnini

Non vi è dubbio che negli ultimi anni modelli linguistici di grandi dimensioni abbiano mostrato capacità straordinarie nella generazione di testo, ma anche comportamenti complessi e talvolta difficili da interpretare. Uno di questi è il cosiddetto refusal, ovvero la tendenza del modello a rifiutare determinate richieste ritenute inappropriate o pericolose. Tradizionalmente, questo fenomeno è stato interpretato come il risultato di regole apprese durante l’addestramento, spesso legate a politiche di sicurezza.

@RIPRODUZIONE RISERVATA

Pierluigi Sandonnini

Senior web editor di Nextwork360. Oltre trent’anni di esperienza giornalistica, maturata in diversi settori della tecnologia: audio video, tv digitale, telecomunicazioni, internet, intelligenza artificiale.

Dal 2020 gestisce il sito Ai4business.it, coordinando la redazione, curandone i contenuti e scrivendo articoli.

Seguimi su

Continua a leggere questo articolo

Argomenti

Canali

Intelligenza Artificiale

La geometria del rifiuto nei modelli linguistici: come comprendere e controllare il comportamento nello “spazio latente”

Pierluigi Sandonnini

Continua a leggere questo articolo

Articoli correlati

Il prompt come codice: capire e controllare l’intelligenza artificiale generativa

Video generati dall’AI: come funzionano i nuovi modelli

AI generativa e spatial computing: dalla personalizzazione del messaggio a quella dello spazio

Codice Rss

Codice Rss