NEWS

OpenAI risponde al New York Times: causa priva di fondamento

In quattro punti, pubblicati sul proprio blog, l’azienda descrive la sua strategia di difesa dalle accuse: collaboriamo con le organizzazioni giornalistiche, il training è una pratica corretta, stiamo cercando di azzerare il bug del “regurgitation”, il NYT non dice tutta la verità

Pubblicato il 9 gen 2024

Pierluigi Sandonnini

giornalista

OpenAI risponde alla causa intentata (anche a Microsoft) dal New York Times a fine dicembre 2023, per aver “tratto profitto dalla massiccia violazione del diritto d’autore, dal commercio e dall’uso di strumenti di comunicazione”. Lo fa con un articolo pubblicato sul blog del proprio sito.

“Pur non essendo d’accordo con le affermazioni contenute nella causa del New York Times, la consideriamo un’opportunità per chiarire la nostra attività, i nostri intenti e il modo in cui costruiamo la nostra tecnologia”, si legge nel blog. “Il nostro obiettivo è sviluppare strumenti di intelligenza artificiale che consentano alle persone di risolvere problemi altrimenti irraggiungibili. Le persone di tutto il mondo stanno già utilizzando la nostra tecnologia per migliorare la loro vita quotidiana. Milioni di sviluppatori e oltre il 92% delle aziende Fortune 500 si basano oggi sui nostri prodotti”.

Indice degli argomenti:

La posizione di OpenAI nella causa con il New York Times

La posizione di OpenAI viene riassunta in quattro punti:

collaboriamo con le organizzazioni giornalistiche e stiamo creando nuove opportunità;
la formazione è un uso corretto, ma forniamo un opt-out perché è la cosa giusta da fare;
il “regurgitation” (regurgito) è un bug raro che stiamo cercando di ridurre a zero;
il New York Times non racconta tutta la storia

New York Times OpenAI — Immagine generata da DALL-E di OpenAI

I quattro punti di difesa di OpenAI nella causa del New York Times

1. Collaboriamo con le organizzazioni giornalistiche

“Nel nostro processo di progettazione tecnologica ci impegniamo a fondo per supportare le organizzazioni giornalistiche. Abbiamo incontrato decine di persone, oltre alle principali organizzazioni del settore come la News/Media Alliance, per esplorare le opportunità, discutere le loro preoccupazioni e fornire soluzioni. Il nostro obiettivo è imparare, educare, ascoltare i feedback e adattarci.

I nostri obiettivi sono sostenere un ecosistema di notizie sano, essere un buon partner e creare opportunità reciprocamente vantaggiose. Per raggiungere questi obiettivi, abbiamo avviato collaborazioni con organizzazioni giornalistiche:

i nostri prodotti vengono impiegati a beneficio e a supporto di giornalisti e redattori, assistendoli in compiti che richiedono molto tempo, come l’analisi di voluminosi documenti pubblici e la traduzione di storie;
insegnare ai nostri modelli di intelligenza artificiale a conoscere il mondo addestrandosi su ulteriori contenuti storici non disponibili pubblicamente;
visualizzare contenuti in tempo reale con attribuzione in ChatGPT, fornendo nuovi modi agli editori di notizie di connettersi con i lettori.

Le nostre prime collaborazioni con l’Associated Press, Axel Springer, l’American Journalism Project e la NYU offrono un’idea del nostro approccio.

2. Il training è una pratica corretta

L’addestramento di modelli di intelligenza artificiale utilizzando materiali disponibili pubblicamente su Internet è un uso corretto, come sostenuto da precedenti di lunga data e ampiamente accettati. Riteniamo che questo principio sia equo per i creatori, necessario per gli innovatori e fondamentale per la competitività degli Stati Uniti.

Il principio secondo cui l’addestramento di modelli di AI è consentito come uso corretto è sostenuto da un’ampia gamma di accademici, associazioni bibliotecarie, gruppi della società civile, startup, aziende statunitensi leader, creatori, autori e altri soggetti che hanno recentemente presentato osservazioni all’Ufficio statunitense per il copyright. Anche altre regioni e paesi, tra cui l’Unione Europea, il Giappone, Singapore e Israele, hanno leggi che consentono l’addestramento di modelli su contenuti protetti da copyright: un vantaggio per l’innovazione, il progresso e gli investimenti nell’AI.

Detto questo, per noi il diritto legale è meno importante dell’essere buoni cittadini. Abbiamo guidato il settore dell’intelligenza artificiale nel fornire un semplice processo di opt-out agli editori (che il New York Times ha adottato nell’agosto 2023) per impedire ai nostri strumenti di accedere ai loro siti.

3. Il “regurgitation” è un bug raro che stiamo cercando di azzerare

I nostri modelli sono stati progettati e addestrati per apprendere i concetti e applicarli a nuovi problemi.

La memorizzazione è un raro fallimento del processo di apprendimento su cui stiamo facendo continui progressi, ma è più comune quando un particolare contenuto appare più di una volta nei dati di addestramento, ad esempio se pezzi di esso appaiono su molti siti web pubblici diversi. Per questo motivo abbiamo adottato misure per limitare la memorizzazione involontaria e prevenire il rigurgito nei risultati del modello. Ci aspettiamo anche che i nostri utenti agiscano in modo responsabile; manipolare intenzionalmente i nostri modelli per rigurgitare non è un uso appropriato della nostra tecnologia ed è contrario alle nostre condizioni d’uso.

Proprio come gli esseri umani ottengono un’ampia formazione per imparare a risolvere nuovi problemi, vogliamo che i nostri modelli di intelligenza artificiale osservino la gamma di informazioni del mondo, comprese quelle provenienti da ogni lingua, cultura e settore. Poiché i modelli imparano dall’enorme aggregato di conoscenze umane, ogni settore – comprese le notizie – è una fetta minuscola dei dati di addestramento complessivi e ogni singola fonte di dati – compreso il New York Times – non è significativa per l’apprendimento previsto dal modello.

4. Il New York Times non racconta tutta la storia

Le nostre discussioni con il New York Times sembravano procedere in modo costruttivo fino all’ultima comunicazione del 19 dicembre. Le trattative si concentravano su una partnership di alto valore per la visualizzazione in tempo reale con attribuzione in ChatGPT, in cui il New York Times avrebbe ottenuto un nuovo modo di entrare in contatto con i suoi lettori attuali e nuovi, e i nostri utenti avrebbero avuto accesso ai loro servizi. Abbiamo spiegato al New York Times che, come ogni singola fonte, i loro contenuti non contribuivano in modo significativo all’addestramento dei nostri modelli esistenti e non avrebbero avuto un impatto sufficiente per l’addestramento futuro.

La causa intentata il 27 dicembre – di cui siamo venuti a conoscenza leggendo il New York Times – ci ha sorpreso e deluso.

Nel corso del tempo hanno accennato a un certo rigurgito dei loro contenuti, ma si sono ripetutamente rifiutati di condividerne gli esempi, nonostante il nostro impegno a indagare e risolvere qualsiasi problema. Abbiamo dimostrato la serietà con cui trattiamo questo problema come una priorità, come ad esempio a luglio, quando abbiamo eliminato una funzione di ChatGPT subito dopo aver appreso che poteva riprodurre contenuti in tempo reale in modi non voluti.

È interessante notare che i rigurgiti indotti dal New York Times sembrano provenire da articoli vecchi di anni che hanno proliferato su diversi siti web di terzi. Sembra che abbiano manipolato intenzionalmente i prompt, spesso includendo lunghi estratti di articoli, per indurre il nostro modello a rigurgitare. Anche quando si usano questi suggerimenti, i nostri modelli non si comportano in genere come insinua il New York Times, il che fa pensare che abbiano istruito il modello a rigurgitare o che abbiano scelto gli esempi da molti tentativi.

Nonostante le loro affermazioni, questo abuso non è un’attività tipica o consentita agli utenti e non è un sostituto del New York Times. Ad ogni modo, stiamo continuamente rendendo i nostri sistemi più resistenti agli attacchi avversari per rigurgitare i dati di addestramento, e abbiamo già fatto molti progressi nei nostri modelli recenti”.

Conclusioni

“Riteniamo che la causa intentata dal New York Times sia priva di fondamento. Speriamo comunque in una collaborazione costruttiva con il New York Times e rispettiamo la sua lunga storia, che comprende la denuncia della prima rete neurale funzionante oltre 60 anni fa e la difesa delle libertà del Primo Emendamento.

Siamo ansiosi di continuare a collaborare con le organizzazioni giornalistiche, aiutandole a migliorare la loro capacità di produrre giornalismo di qualità realizzando il potenziale di trasformazione dell’AI”, conclude quindi l’articolo sul blog di OpenAI.

@RIPRODUZIONE RISERVATA