analisi

I modelli di AI faticano nelle lingue diverse dall’inglese

Home Intelligenza Artificiale AI Generativa

Errori, traduzioni imprecise e carenza di dati compromettono l’affidabilità delle risposte, con rischi concreti soprattutto in ambito sanitario. Nonostante alcuni miglioramenti recenti, il divario linguistico resta significativo, penalizzando proprio le popolazioni che potrebbero beneficiarne maggiormente

Pubblicato il 20 mar 2026

Giovanni Clericò

Per ottenere la risposta più accurata da un modello linguistico avanzato, è fondamentale usare la lingua giusta. Un utente anglofono che chieda consigli su gambe gonfie in gravidanza potrebbe essere avvisato del rischio di preeclampsia, una complicazione comune responsabile di oltre 70mila morti materne ogni anno.

Al contrario, una donna che pone la stessa domanda in swahili potrebbe ricevere rassicurazioni fuorvianti. Questo esempio evidenzia un problema diffuso: anche quando un modello supera test di sicurezza in inglese, può generare informazioni pericolose in altre lingue.

Indice degli argomenti:

Un divario di accuratezza significativo

Uno studio preliminare pubblicato nell’ottobre 2025 ha rilevato che l’accuratezza dei modelli nelle lingue non inglesi è inferiore di circa 12-29 punti percentuali. Nei casi peggiori, sistemi capaci di rispondere correttamente al 75% delle domande in inglese scendono fino al 22,6%.

Il fenomeno è particolarmente preoccupante perché l’uso dell’AI cresce rapidamente nei paesi non anglofoni, dove questi strumenti potrebbero avere un impatto maggiore.

L’AI nella sanità globale: opportunità e rischi

Nel gennaio 2026, la Gates Foundation e OpenAI hanno annunciato un investimento di 50 milioni di dollari per introdurre strumenti di AI in mille cliniche africane, con funzioni di triage e consulenza medica in lingue locali.

Tuttavia, se i modelli non colmano il divario linguistico, rischiano di essere inadatti proprio nei contesti in cui sono più necessari.

I benchmark e i primi miglioramenti

I ricercatori Tuka Alhanai e Mohammad Ghassemi hanno sviluppato un benchmark per valutare le capacità dei modelli nelle lingue non inglesi. I test, condotti su 11 lingue africane, mostrano che anche i modelli più avanzati ottengono risultati inferiori di 12-20 punti percentuali rispetto all’inglese.

Nuovi sistemi, come Gemini 2.0 Flash e Claude 3.7 Sonnet, mostrano progressi, ma il divario rimane evidente.

Lingue “lontane” dall’inglese, risultati peggiori

Le prestazioni peggiorano quanto più una lingua è distante dall’inglese. Lingue come spagnolo e francese risultano più facili da gestire, mentre lingue come yoruba, igbo o turkmeno registrano i risultati peggiori.

Questo è dovuto anche alla scarsità di dati disponibili per l’addestramento.

Il peso dei dati e dei token

Il predominio dell’inglese nei dati di addestramento influenza anche il funzionamento interno dei modelli. I testi vengono suddivisi in token, ma nelle lingue non inglesi questa segmentazione è meno efficiente.

Ad esempio, una frase può richiedere 36 token in inglese, ma fino a 132 in yoruba, aumentando costi e complessità.

Traduzioni interne e margini di errore

Anche i modelli multilingue spesso operano traducendo mentalmente le domande in inglese, elaborando la risposta e poi ritraslandola. Questo processo introduce ulteriori possibilità di errore.

In alcune lingue asiatiche, come mandarino, giapponese e coreano, i modelli riescono a rispondere correttamente a meno di un quarto delle domande fattuali.

Quando mescolare le lingue peggiora le cose

Un approccio intuitivo potrebbe essere mescolare inglese e lingua locale nelle richieste. Tuttavia, studi dimostrano che il code-mixing peggiora ulteriormente le prestazioni, creando confusione nei modelli e aumentando gli errori di traduzione.

Problemi simili emergono anche con varianti dell’inglese, come l’inglese afroamericano o quello di Singapore.

Possibili soluzioni

Aggiungere anche piccole quantità di dati di alta qualità in lingue non inglesi può migliorare significativamente le prestazioni. Inoltre, l’uso di lingue correlate nell’addestramento produce benefici indiretti.

Un’altra strategia consiste nel ripensare la tokenizzazione, rendendola più adatta a lingue diverse, per migliorare efficienza e precisione.

Un divario ancora aperto

Nonostante i progressi, il problema resta irrisolto. Come sottolineano i ricercatori, le popolazioni che trarrebbero maggior beneficio da queste tecnologie sono spesso le meno in grado di utilizzarle efficacemente.

Colmare il divario linguistico non è solo una sfida tecnica, ma una necessità per garantire equità nell’accesso all’intelligenza artificiale.

@RIPRODUZIONE RISERVATA

Giovanni Clericò

0 Commenti

Più recenti

Più votati

Inline Feedback

Vedi tutti i commenti

Argomenti

Canali

A
AI Generativa

I modelli di AI faticano nelle lingue diverse dall’inglese

Un divario di accuratezza significativo

L’AI nella sanità globale: opportunità e rischi

I benchmark e i primi miglioramenti

Lingue “lontane” dall’inglese, risultati peggiori

Il peso dei dati e dei token

Traduzioni interne e margini di errore

Quando mescolare le lingue peggiora le cose

Possibili soluzioni

Un divario ancora aperto

Giovanni Clericò

Leggi anche:

Articoli correlati

Da Morgan Stanley uno strumento per tradurre il codice legacy in specifiche leggibili in inglese

Anthropic svela la struttura nascosta dei modelli linguistici di grandi dimensioni

OpenAI e Anthropic: ecco perché hanno due diverse visioni del mondo

Codice Rss

Codice Rss