Lo scorso mese, un bot di intelligenza artificiale utilizzato per il supporto tecnico di Cursor, uno strumento emergente per programmatori, ha informato alcuni clienti di un presunto cambio di policy: non sarebbe più stato possibile usare Cursor su più di un computer. Gli utenti, indignati, si sono sfogati su forum online, alcuni hanno perfino annullato l’abbonamento. Poco dopo, la verità è venuta a galla: non era cambiato nulla. Il bot aveva inventato tutto.

“Non abbiamo una politica di questo tipo. Naturalmente siete liberi di utilizzare Cursor su più macchine”, ha scritto su Reddit Michael Truell, CEO e co-fondatore dell’azienda. “Sfortunatamente, questa è una risposta errata da parte di un bot di supporto A.I. di prima linea”.
Indice degli argomenti:
Più potenti, ma meno affidabili
Oltre due anni dopo il lancio di ChatGPT, i sistemi di AI vengono utilizzati in ambiti sempre più vari, dalla scrittura di testi alla generazione di codice. Tuttavia, non esiste ancora un metodo sicuro per garantire l’accuratezza delle informazioni generate. I nuovi sistemi di “ragionamento” sviluppati da OpenAI, Google e la cinese DeepSeek sembrano peggiorare sotto questo aspetto: più competenti nel calcolo, ma più inclini a “confondere i fatti”.
Quando l’AI “si inventa” le risposte
I bot moderni funzionano sulla base di complessi calcoli matematici che analizzano enormi quantità di dati digitali. Non distinguono tra vero e falso. A volte, semplicemente, “si inventano” cose. Questo fenomeno, noto come hallucination, può raggiungere tassi altissimi: in alcuni test, il 79% delle risposte generate erano errate. “Nonostante i nostri sforzi, avranno sempre delle allucinazioni”, ha spiegato Amr Awadallah, CEO di Vectara ed ex dirigente Google. “Questo non sparirà mai”.
Quando l’errore diventa un rischio
Se in contesti leggeri l’errore può sembrare innocuo, la questione cambia radicalmente quando si parla di ambiti sensibili: atti legali, diagnosi mediche o dati aziendali riservati.
“Si passa un sacco di tempo a cercare di capire quali risposte sono reali e quali no”, ha osservato Pratik Verma, CEO di Okahu. “Non gestire correttamente questi errori elimina sostanzialmente il valore dei sistemi di A.I., che dovrebbero automatizzare le attività per voi”.
I numeri dietro le allucinazioni
Anche i dati interni delle aziende confermano la crescita del problema. Secondo OpenAI, il suo sistema più recente, chiamato o3, ha avuto un tasso di allucinazione del 33% nel test PersonQA — più del doppio rispetto al predecessore o1.
Il nuovo o4-mini ha raggiunto il 48%. Nel test SimpleQA, che prevede domande generali, o3 ha sbagliato nel 51% dei casi, o4-mini nel 79%.
“Le allucinazioni non sono intrinsecamente più diffuse nei modelli di ragionamento, anche se stiamo lavorando attivamente per ridurre i tassi più elevati di allucinazioni che abbiamo visto in o3 e o4-mini”, ha dichiarato Gaby Raila, portavoce di OpenAI.
“Continueremo la nostra ricerca sulle allucinazioni in tutti i modelli per migliorare l’accuratezza e l’affidabilità”.
Perché succede? Nessuno lo sa con certezza
Il motivo alla base di questi errori non è chiaro nemmeno agli sviluppatori. I modelli si addestrano su quantità di dati così grandi che neppure gli esperti riescono a comprendere appieno i loro meccanismi interni. “Non sappiamo ancora come funzionano esattamente questi modelli”, ha ammesso Hannaneh Hajishirzi, professore all’Università di Washington e ricercatore dell’Allen Institute for AI.
Le nuove tecniche di addestramento non bastano
Per anni, le aziende hanno migliorato le prestazioni delle AI semplicemente alimentandole con più dati dal web. Ma ora l’inglese online è stato quasi completamente “consumato”, e si punta sul reinforcement learning, ovvero l’apprendimento tramite prove ed errori. Questa tecnica ha dato buoni risultati in matematica e programmazione, ma mostra limiti evidenti in altri contesti.
“Il modo in cui questi sistemi sono addestrati, inizieranno a concentrarsi su un compito – e inizieranno a dimenticare gli altri”, ha spiegato Laura Perez-Beltrachini, ricercatrice all’Università di Edimburgo.
Più “ragionano”, più sbagliano
I nuovi modelli di ragionamento si prendono più tempo per analizzare i problemi passo dopo passo. Ma ogni passaggio può essere un’occasione per generare un errore. E il risultato finale può essere influenzato da una sequenza di errori invisibili.
“Ciò che il sistema dice di pensare non è necessariamente ciò che pensa”, ha sottolineato Aryo Pradipta Gema, ricercatore ad Edimburgo e fellow di Anthropic.
I dati degli altri: anche Google e DeepSeek in difficoltà

Anche i test condotti da aziende indipendenti mostrano un aumento delle allucinazioni nei modelli di ragionamento. Vectara ha monitorato quanto spesso i chatbot alterano il contenuto di notizie che dovrebbero semplicemente riassumere. I risultati sono chiari: anche nei casi più semplici, l’AI inventa.
All’inizio i tassi di errore erano contenuti: 1-2% per OpenAI e Google, 4% per Anthropic. Ma con i nuovi modelli: DeepSeek R1 ha sbagliato il 14,3% delle volte, o3 di OpenAI il 6,8%.
Conclusioni
Le promesse dell’intelligenza artificiale si scontrano oggi con un problema fondamentale: l’affidabilità. L’evoluzione verso modelli di ragionamento ha aumentato le capacità analitiche dei bot, ma anche la loro tendenza a “immaginare” risposte. Senza una comprensione più profonda dei meccanismi interni, l’AI rischia di perdere la fiducia dei suoi utenti, proprio mentre il suo uso si espande nei settori più delicati della società.






