OpenAI ha presentato un ricorso davanti a un giudice federale di New York per annullare un’ordinanza che la obbliga a consegnare 20 milioni di log anonimi delle conversazioni degli utenti del chatbot ChatGPT. (Fonte: Reuters)
La richiesta fa parte di una causa per violazione del copyright promossa da The New York Times e altri organi d’informazione, che accusano OpenAI di aver utilizzato articoli protetti da diritto d’autore per addestrare ChatGPT.
OpenAI sostiene che l’ordine avrebbe come effetto la divulgazione di dati riservati degli utenti, la maggior parte estranei alla causa («99,99 % dei log non riguardano le contestazioni di copyright»).
Il giudice designato, Ona Wang, ha ritenuto che la produzione dei chat log fosse appropriata, ritenendo sufficienti le garanzie (anonimizzazione, ordine protettivo) fornite da OpenAI.
Indice degli argomenti:
OpenAI: privacy degli utenti sotto attacco
L’azienda ha pubblicato un comunicato firmato dal suo Chief Information Security Officer, Dane Stuckey, in cui definisce la richiesta del giornale come un attacco alla privacy degli utenti.
OpenAI argomenta che la richiesta di 20 milioni di chat copre un arco temporale dal dicembre 2022 al novembre 2024 e comprende utenti che non hanno alcun legame con la causa.
L’azienda ha dichiarato di avere proposto soluzioni alternative – ad esempio un campione più selezionato o ricerche mirate – che sarebbero state respinte dal giornale.
Secondo il comunicato, consegnare questi log “forzerebbe la consegna di decine di milioni di conversazioni altamente personali da parte di persone senza alcun legame con la causa”.
I media: necessità di trasparenza e rilevanza
Il giornale e gli altri organi che hanno promosso l’azione sostengono che i log siano indispensabili per verificare se ChatGPT abbia riprodotto contenuti protetti da copyright, oppure se OpenAI abbia manipolato il suo modello per evitare tali riproduzioni.
Secondo queste parti, senza l’accesso a una fetta significativa dei dati, non è possibile verificare l’addestramento, l’output, o le modalità con cui ChatGPT ha potuto fare uso di articoli protetti.
La questione va ben oltre le parti in causa, poiché molti esperti vedono il verdetto come un potenziale precedente per l’industria dell’AI e per la tutela della privacy nell’era dei modelli linguistici di grandi dimensioni.
Le implicazioni legali e di mercato
Questa vicenda si inserisce in un quadro più ampio: numerose cause sono in corso nei confronti di aziende tecnologiche che addestrano sistemi di intelligenza artificiale con contenuti protetti da copyright.
Se il giudice decidesse che l’ordine è legittimo, ciò potrebbe dare agli editori un potere molto più ampio per accedere a log e dati degli utenti delle piattaforme AI. Al contrario, se OpenAI avesse ragione, potrebbe essere rafforzato il principio della privacy degli utenti come limite all’azione degli editori in questi contenziosi.
In termini pratici, la decisione potrebbe influenzare:
- le politiche di retention (conservazione) ed eliminazione dei dati da parte delle aziende AI;
- la governance e i criteri di anonimizzazione dei dati utente;
- i termini contrattuali tra editori e piattaforme AI per il ri-uso del materiale protetto.
“La tutela dei dati non si esaurisce nella cifratura dei log, sia durante la trasmissione sia nello storage”, commenta Cristiano Voschion, country manager per l’Italia di Check Point Software Technologies. “È determinata anche dalle politiche di conservazione e dal contesto legale che può trasformarli in una fonte di rischio strutturale. Le organizzazioni che adottano servizi basati sull’intelligenza artificiale devono valutare con attenzione non solo le capacità tecniche dei fornitori, ma anche il loro modello di governance, il quadro di responsabilità e le implicazioni legate alla gestione dei log. Il caso OpenAI conferma in modo tangibile che questi aspetti non sono più scenari teorici, ma elementi critici di una moderna sicurezza.”
Prossimi passaggi
OpenAI ha fissato un termine entro venerdì 14 novembre per conformarsi all’ordine.
Allo stesso tempo ha chiesto formalmente alla corte di rivalutare l’ordinanza, sostenendo che non è mai stato imposto in modo così massiccio che una società consegnasse conversazioni personali dei propri utenti.
Il verdetto – o un possibile accordo – sarà seguito con attenzione da tutto il settore tecnologico, editoriale e delle policy pubbliche.
Conclusione
La controversia mette in risalto il conflitto tra due diritti fondamentali: da una parte, il diritto degli utenti alla privacy nei loro dialoghi con sistemi AI; dall’altra, il diritto degli editori di verificare e tutelare i propri contenuti protetti da copyright. In questa battaglia fra trasparenza, innovazione e tutela dei dati personali, la decisione della corte potrà segnare un punto di svolta per l’ecosistema dell’intelligenza artificiale.
Gli studi accademici recenti tendono a rafforzare le argomentazioni di OpenAI su alcuni rischi: non solo il rischio di ri-identificazione o violazione della privacy, ma anche il fatto che il modello “memorizza” dati protetti in modi complessi, e che non tutte le somiglianze testuali implicano automaticamente una violazione.
Allo stesso tempo, gli accademici legali avvertono che l’eccezione TDM (text and data mining) europea (spesso usata come giustificazione per l’uso massivo dei dati) potrebbe non essere sufficiente per coprire il training generativo come fa OpenAI, il che potrebbe dare ragione agli editori (come il NYT) su vecchie tattiche di “discovery”: chiedere accesso a dati per verificare se l’AI ha effettivamente usato contenuti protetti.
In “Generative AI Training and Copyright Law” – Tim W. Dornis & Sebastian Stober (2025)
- Gli autori sostengono che l’eccezione europea per il Text and Data Mining (TDM) non è adeguata per giustificare l’addestramento dei modelli generativi IA, perché il training generativo “differisce fondamentalmente” dal TDM classico. (Fonte: arXiv)
- Segnalano anche che il fenomeno della memorizzazione (memorization) dei dati da parte dei modelli (inclusi testi protetti da copyright) ha implicazioni legali indipendenti rispetto alle eccezioni normative.
- Questo ragionamento è molto pertinente al caso NYT/OpenAI, perché la richiesta di log da parte del NYT potrebbe far emergere conversazioni in cui ChatGPT “ricorda” (o sembra riepilogare) contenuti protetti, e gli autori mostrano che non basta il fair use (USA) o il TDM (UE) per giustificare automaticamente tutto.
Sul fronte della privacy, la conservazione indefinita dei log – imposta da un tribunale USA – è vista dagli osservatori europei come un precedente problematico: se modelli di AI devono rispettare la normativa sulla privacy, il fatto che vengano “congelate” tutte le chat degli utenti potrebbe essere in tensione con diritti come la cancellazione o la minimizzazione dei dati (dipenderà molto da come il dato è trattato, de-identificato, protetto).





