Storicamente, qualsiasi tecnologia mainstream, prima del passaggio in produzione, ha attraversato una lunga e robusta fase di testing, spesso guidata da standard consolidati. Con le AI generative, questa procedura si è notevolmente snellita e velocizzata, con modelli che passano rapidamente dai laboratori alle applicazioni industriali su grande scala, mentre si cerca ancora di comprendere quali siano i potenziali drawback di tali utilizzi.
Indice degli argomenti:
Le insidie dell’ultima generazione di LLM
Una di queste insidie è il position bias, un fenomeno che, come vedremo, può influenzare in modo significativo l’affidabilità e l’efficacia dei modelli LLM. Non si tratta di un bug da correggere con una patch, né di un limite intrinseco al singolo modello, ma di una caratteristica propria dell’architettura dei grandi modelli generativi.
Tale fenomeno dev’essere assolutamente tenuto in considerazione quando si tratta di sviluppare applicazioni pragmatiche per l’AI, soprattutto in contesti aziendali dove decisioni cruciali dipendono dall’accuratezza e dalla completezza delle informazioni ricavate.

Che cos’è il Position bias negli LLM: un fenomeno di ancoraggio e ricordo
Il Position bias, in termini semplificati, è la tendenza dei Large Language Model basati su architettura Transformer a dare un peso sproporzionato alle informazioni che si trovano all’inizio (primacy bias) e alla fine (recency bias) di un dato input (il prompt), rispetto a quelle posizionate nel mezzo. Questo fenomeno è stato osservato in diversi contesti e si manifesta indipendentemente dalla rilevanza semantica o dalla centralità logica delle informazioni all’interno del testo.
Per capirlo a fondo, dobbiamo fare un piccolo passo indietro e richiamare alla mente il funzionamento dei Transformer. Questi modelli, a differenza dei loro predecessori sequenziali, non elaborano l’input parola per parola in modo lineare, ma utilizzano un meccanismo chiamato self-attention, che consente a ogni token (parola o parte di parola) di considerare tutti gli altri token nella sequenza, calcolando per ciascuno una sorta di peso di rilevanza. Questo permette di catturare dipendenze a lungo raggio, un’innovazione che ha rivoluzionato il campo del Natural Language Processing.
Tuttavia, per attribuire un senso all’ordine delle parole, i Transformer integrano anche dei posizional encodings (PEs), che aggiungono informazioni sulla posizione di ciascun token all’interno della sequenza. La combinazione tra attention mask (come la causal mask usata nei modelli generativi, che impedisce a un token di “vedere” i futuri token) e positional encodings è fondamentale per il funzionamento del modello.
Il paper “On the Emergence of Position Bias in Transformers”
È proprio qui che affonda le radici il Position bias. Studi recenti, come il paper On the Emergence of Position Bias in Transformers, hanno gettato luce su come queste componenti fondamentali modellino, talvolta in modo inatteso, le preferenze posizionali del modello. Gli autori hanno creato un framework basato sulla teoria dei grafi per studiare il funzionamento dell’attenzione nei modelli linguistici su più livelli. Una scoperta importante riguarda proprio la causal mask: nei livelli più profondi del modello, le parole non si basano più solo sul testo originale, ma su versioni sempre più elaborate delle parole precedenti. Questo porta a un effetto a catena, in cui le prime parole influenzano sempre di più le successive, diventando un punto di riferimento fondamentale per costruire il significato dell’intera frase.
Un altro aspetto chiave riguarda il modo in cui vengono gestite le informazioni sulla posizione delle parole. Alcune tecniche, come la decay mask o la Rotary Positional Encoding, fanno sì che le parole lontane tra loro abbiano meno influenza l’una sull’altra, almeno all’interno di un singolo livello. Tuttavia, osservando l’intero modello, questo effetto si bilancia: le parole all’inizio della frase, pur perdendo importanza a ogni livello, finiscono comunque per avere un impatto molto rilevante sul risultato generato. È un po’ come se il modello, nel tentativo di costruire un significato, si aggrappasse saldamente ai capi della sequenza, cercando al contempo di tenere conto della prossimità relativa.
Il fenomeno del “lost-in-the-middle”
Una manifestazione evidente di questo bias è il famoso fenomeno del lost-in-the-middle. Molti LLM, quando devono recuperare informazioni da un testo lungo, mostrano una significativa degradazione dell’accuratezza per le informazioni posizionate nel mezzo della sequenza di input, rispetto a quelle poste all’inizio o alla fine. Questo è particolarmente problematico per le applicazioni che prevedono l’elaborazione di documenti estesi.
Allo stesso modo, l’in-context learning, ovvero la capacità del modello di apprendere da esempi forniti direttamente nel prompt, è estremamente sensibile all’ordine in cui gli esempi vengono presentati.

I possibili problemi del position bias per chi usa gli LLM in azienda
Passando dalla teoria al banco di prova del mondo reale, quali implicazioni dannose potrebbe avere il position bias in un contesto aziendale? La risposta è semplice: bias come questo possono compromettere l’affidabilità e la qualità delle decisioni basate su dati generati dall’AI.
Pensiamo, ad esempio, all’ambito legale. Un avvocato potrebbe affidarsi a un LLM per riassumere un contratto o evidenziare clausole critiche. Se però le condizioni fondamentali si dovessero trovare nel corpo centrale del documento e il modello le ignorasse a causa del bias posizionale, il rischio sarebbe quello di trascurare scadenze, vincoli o eccezioni determinanti. In settori che richiedono la massima diligenza, questo tipo di errore non è accettabile e può esporre a gravi responsabilità.
Anche nel supporto clienti, dove chatbot basati su LLM gestiscono richieste complesse, il position bias potrebbe rivelarsi insidioso. Se la risposta richiedesse l’analisi di un manuale tecnico articolato, il modello potrebbe attingere solo dalle sezioni iniziali e finali, trascurando passaggi chiave nel mezzo. Il risultato sarebbe un’informazione incompleta o errata, con conseguente frustrazione del cliente e possibile danno reputazionale per l’azienda.
Il problema potrebbe ripresentarsi in maniera simile nella generazione di report e sintesi esecutive. Manager e decisori aziendali fanno spesso affidamento su riassunti generati da LLM per orientare scelte strategiche. Se però il modello privilegiasse solo l’introduzione e le conclusioni, lasciando fuori trend, numeri o obiezioni centrali presenti nella parte mediana del documento, si correrebbe il rischio di basare decisioni importanti su un quadro parziale o distorto.
Il bias si potrebbe riflettere anche nei processi di selezione del personale. Un LLM usato per scremare centinaia di curriculum potrebbe attribuire un peso sproporzionato alle prime e ultime esperienze lavorative, ignorando competenze preziose inserite nel mezzo. Così facendo, si rischierebbe di scartare candidati eccellenti o di non riconoscere talenti promettenti.
Dalla perdita di informazioni alla perdita di fiducia
Il problema della perdita di informazioni potrebbe anche innescare una perdita di fiducia in chi lavora con il supporto di un’AI. Se gli utenti aziendali iniziassero a percepire che gli LLM ignorano parti del loro input, l’adozione di questi strumenti sarebbe frenata e la percezione del valore dell’AI si deteriorerebbe. La hallucination, ovvero la tendenza dei modelli a generare informazioni plausibili ma errate, è già una sfida nota; il Position bias aggiunge un’ulteriore dimensione al problema, creando dei buchi informativi che possono passare inosservati fino a quando non è troppo tardi.
Inoltre, la trasparenza per l’utente finale diventa ancora più complessa da gestire. Se non sappiamo perché il modello abbia dato una certa risposta o perché abbia ignorato un dato cruciale, diventa impossibile diagnosticare l’errore e migliorare il sistema. In settori regolamentati o in processi critici, questa mancanza di interpretabilità potrebbe diventare inaccettabile.

Come usare il prompt engineering per mitigare il position bias
Di fronte a un fenomeno così strettamente correlato all’architettura delle AI generative, come possiamo, nel concreto, fare in modo di mitigare il problema del position bias?
Una delle soluzioni più efficaci è il prompt engineering, la disciplina che ci permette di dialogare con il modello in modo strategico, strutturando l’input in modo da orientare la sua attenzione e ottimizzare le sue risposte.
Per contrastare il position bias nei modelli linguistici è utile adottare una serie di strategie di progettazione dei prompt che guidino il modello a considerare l’intero contenuto in modo più bilanciato.
Frammentazione e riferimento incrociato
Una prima tecnica consiste nella frammentazione e riferimento incrociato: suddividere un lungo testo in parti più gestibili e chiedere al modello di analizzarle separatamente. In seguito, si può richiedere una sintesi generale che tenga conto dei vari segmenti. Questo approccio obbliga il modello a valutare ogni parte del testo e non solo ciò che appare all’inizio o alla fine. È particolarmente utile per documenti lunghi come report o analisi complesse.
Posizionamento strategico delle informazioni chiave
Un’altra tecnica efficace è il posizionamento strategico delle informazioni chiave. Se alcune informazioni sono cruciali per il compito, è utile ripeterle sia all’inizio sia alla fine del prompt. Questo sfrutta i meccanismi cognitivi del modello (primacy e recency effect), rinforzando la presenza delle istruzioni fondamentali.
È poi importante fornire istruzioni esplicite e ordinate. Utilizzare elenchi puntati o numerati, accompagnati da frasi che sottolineino l’importanza di non trascurare nessuna parte del testo, aiuta il modello a seguire un percorso logico e completo. Questo schema guida l’attenzione in modo sistematico, riducendo il rischio di omissioni.
Role-playing
Un’altra strategia consiste nell’adozione di un approccio di Role-playing: assegnare al modello un ruolo connotato da rigore e attenzione, come quello di un revisore fiscale o un investigatore. Questo tipo di inquadramento incide positivamente sulla modalità con cui il modello esplora il contenuto, portandolo a prestare più attenzione ai dettagli nascosti o meno evidenti.
Le tecniche di “Chain of thought” e “Step-by-Step”, invece, incoraggiano il modello a suddividere il problema in sottoproblemi, affrontando ogni sezione in modo sequenziale. Questo tipo di ragionamento guidato permette di trattare con maggiore cura anche le porzioni centrali del testo, spesso penalizzate nei prompt lunghi.
Infine, non bisogna trascurare l’importanza della validazione e del feedback iterativo. Dopo la prima risposta, è utile chiedere al modello se abbia considerato anche parti centrali o meno visibili del testo. Questo tipo di controllo a posteriori permette di correggere eventuali lacune e migliorare progressivamente l’output.
Quando usare (e quando evitare) gli LLM in ambito business alla luce del position bias
La consapevolezza dell’esistenza del position bias non è un deterrente all’adozione degli LLM in azienda, ma uno strumento per valutare la loro idoneità per specifiche applicazioni. I modelli linguistici di grandi dimensioni sono strumenti molto utili in contesti dove non è necessaria un’analisi profonda o una precisione estrema. Funzionano bene per testi brevi o strutturati, per esempio nella creazione di contenuti come post, slogan o script pubblicitari, dove ciò che conta è la fluidità e la coerenza. Sono efficaci anche per la traduzione di testi commerciali, la produzione o correzione di porzioni ridotte di codice e la generazione di risposte a domande su dati strutturati, a condizione che si impiegano sistemi RAG (Retrieval Augmented Generation), capaci di mitigare i limiti del modello come il position bias.
Invece, in compiti che richiedono un’elevata accuratezza, come l’analisi di documenti legali, report finanziari dettagliati, valutazioni di conformità normativa o screening complessi, l’uso degli LLM deve essere sempre accompagnato da una supervisione umana. Il rischio di omissioni critiche o interpretazioni errate aumenta con la lunghezza e la complessità del testo, a causa del position bias. In ambiti regolati o ad alto impatto, anche un piccolo errore può avere conseguenze gravi, quindi l’uso degli LLM va valutato con attenzione.
In generale, una regola che aiuta a scegliere quando impiegare un modello testuale generativo è la seguente: maggiore è la lunghezza e la densità di informazioni rilevanti distribuite nell’input, maggiore è il rischio legato al position bias, e maggiore deve essere il livello di supervisione umana o l’impiego di tecniche avanzate di prompt engineering/RAG.

Consapevolezza, responsabilità e il futuro degli LLM nell’impresa
Il position bias, come abbiamo visto, non è una vera anomalia dei modelli generativi, ma una modalità con cui essi processano e interpretano il mondo testuale che gli presentiamo. L’architettura Transformer, pur rappresentando un’autentica meraviglia ingegneristica, porta con sé delle tendenze che, se non prese nella giusta considerazione, possono compromettere l’affidabilità e il valore aggiunto che ci aspettiamo di ottenere dall’AI.
La consapevolezza informata è sempre lo strumento principale per evitare di incappare nelle insidie appena descritte. Non possiamo più permetterci di trattare gli LLM come delle black box onniscienti: dobbiamo comprendere le loro forze, i loro punti deboli e i loro bias, siano essi legati alla posizione, ai dati di training o alla natura stessa dell’algoritmo.
Da un lato, la responsabilità di chi sviluppa questi modelli è quella di continuare a investire in ricerca per ottimizzare le architetture esistenti. Dall’altro, la responsabilità di chi li implementa sta nel selezionare con attenzione le applicazioni appropriate, nel progettare prompt robusti e nel costruire pipeline che includano meccanismi di validazione e, dove necessario, la supervisione umana.