Alcuni chatbot di AI si basano su articoli scientifici ritirati senza avvisare gli utenti. Ricerche condotte da università statunitensi e confermate dal MIT Technology Review hanno dimostrato che ChatGPT, Elicit, Consensus e altri strumenti citano paper non più validi come se fossero affidabili, raramente segnalando la ritrattazione. Le conseguenze sono gravi: il pubblico può ricevere consigli medici o informazioni scientifiche fuorvianti, mentre studenti e ricercatori rischiano di costruire analisi su basi corrotte. Il problema deriva da una combinazione di fattori: la mancanza di database completi e aggiornati sulle ritrattazioni, l’assenza di standard univoci da parte degli editori e l’uso di dati di training non aggiornati.
Indice degli argomenti:
Qualcuno è già corso ai ripari
Alcune aziende stanno correndo ai ripari, integrando fonti come Retraction Watch o OpenAlex. Retraction Watch è un progetto giornalistico che monitora gli articoli scientifici ritirati dalle riviste accademiche, mantenendo un database aggiornato con le motivazioni delle ritrattazioni. È considerato un riferimento internazionale per verificare l’affidabilità delle pubblicazioni.

OpenAlex è un catalogo aperto della letteratura scientifica che raccoglie metadati su articoli, autori, riviste e citazioni. Tra le informazioni disponibili vi sono anche le segnalazioni di articoli ritirati, accessibili tramite API e utilizzate da diversi strumenti di ricerca e AI. Per gli esperti, è essenziale che i modelli di AI vengano alimentati con più contesto: note di ritrattazione, peer review, critiche accademiche e avvisi pubblicati fuori dai paywall. Senza queste misure, i rischi di disinformazione restano elevati.
Come sottolinea Aaron Tay della Singapore Management University, siamo solo agli inizi e occorre mantenere un approccio scettico: la due diligence spetta tanto agli sviluppatori quanto agli utenti.
Lo studio su ChatGPT
Un team guidato da Weikuan Gu, medico ricercatore all’Università del Tennessee, ha interrogato ChatGPT basato sul modello GPT-4o con domande ricavate da 21 articoli scientifici ritirati sull’imaging medico. In cinque casi, il chatbot ha citato paper ritirati, ma solo in tre ha invitato alla cautela. In altri casi ha utilizzato articoli non ritirati, ma senza riconoscere quando un testo era stato effettivamente rimosso dalla letteratura scientifica. Un altro studio di agosto ha analizzato 217 articoli ritirati o di bassa qualità provenienti da diversi campi, interrogando GPT-4o mini, nessuna risposta menzionava la ritrattazione.
Al momento non ci sono studi simili pubblicati sul più recente GPT-5, il che solleva ulteriori interrogativi sulla capacità dei modelli di nuova generazione di distinguere in modo affidabile tra ricerche valide e ricerche corrotte.
Questa incertezza non riguarda soltanto l’uso accademico, si estende a settori come la sanità, l’industria farmaceutica e le politiche pubbliche, dove basare decisioni su evidenze viziate può produrre conseguenze significative.
Le risposte degli altri strumenti
Il problema non riguarda solo ChatGPT. MIT Technology Review ha testato diversi strumenti di AI per la ricerca e i risultati sono stati altrettanto preoccupanti. Elicit ha citato cinque articoli ritirati, Ai2 ScholarQA ben 17, Perplexity 11 e Consensus 18, senza che in nessun caso venisse segnalato che i paper fossero stati ritirati. Solo di recente alcune aziende hanno iniziato a integrare dati sulle ritrattazioni per limitare il problema.
Consensus, ad esempio, oggi utilizza informazioni provenienti da editori, aggregatori di dati, crawling indipendente e dal database manuale di Retraction Watch. Elicit si affida a OpenAlex, mentre Ai2 ha ammesso che il proprio strumento non rileva automaticamente articoli ritirati.
Perplexity, infine, ha dichiarato di “non pretendere di essere accurato al 100%”.
Le difficoltà delle ritrattazioni
Secondo Ivan Oransky, cofondatore di Retraction Watch, non esiste ancora un database completo e definitivo, la raccolta di informazioni sulle ritrattazioni è un lavoro manuale e dispendioso. A complicare il quadro c’è la mancanza di standard: le etichette usate dagli editori variano da “ritirato” a “errata corrige”, “espressione di preoccupazione” o “correzione”, e possono essere applicate per motivi diversi (contenuti, metodologia, dati, conflitti di interesse).
Inoltre, gli articoli distribuiti su preprint server e repository rischiano di moltiplicarsi online anche dopo il ritiro ufficiale. Se un paper viene ritirato dopo la data di cutoff del training, i modelli di AI possono continuare a trattarlo come valido.
Le possibili soluzioni
Gli esperti invitano a fornire più contesto nei dati di training e nei sistemi di ricerca, peer review, critiche su PubPeer, avvisi ufficiali degli editori e articoli giornalistici che menzionano ritrattazioni.
Alcuni editori come Nature e BMJ già pubblicano avvisi fuori dai paywall, ma serve che le aziende integrino efficacemente queste fonti e che governi, istituzioni scientifiche e comunità accademiche stabiliscano regole comuni per l’uso di tali informazioni.
Solo un impegno coordinato tra pubblico e privato può garantire che i modelli di AI non diventino veicolo di disinformazione ma strumenti affidabili per la ricerca e per la definizione di policy basate su evidenze solide.
Conclusioni
Il tema delle ritrattazioni mette in luce una fragilità profonda degli attuali sistemi di intelligenza artificiale applicati alla ricerca scientifica. La capacità dei modelli di generare risposte fluide e convincenti non garantisce che i contenuti siano affidabili, soprattutto se alla base vi sono articoli ritirati o di dubbia qualità.
Il rischio non è solo accademico: consigli medici, decisioni di policy o investimenti di ricerca potrebbero poggiare su informazioni errate.
Per questo motivo, la costruzione di strumenti più solidi e trasparenti diventa una priorità sia per le aziende tecnologiche sia per il mondo scientifico. Database più completi, procedure di segnalazione uniformi e un maggiore coinvolgimento delle comunità accademiche sono passi fondamentali per ridurre i rischi.
In attesa di soluzioni mature, resta valido l’invito alla prudenza, usare i chatbot come supporto, non come fonte unica, e mantenere un approccio critico.
Solo così l’AI potrà diventare davvero un alleato della scienza e non un fattore di confusione.






