NEWS

I modelli di AI generativa possono dimenticare selettivamente i dati dopo il training

I ricercatori Microsoft hanno usato il rinforzo e la riqualificazione per cancellare la memoria dei dati di Harry Potter da un modello linguistico di grandi dimensioni

Pubblicato il 9 ott 2023

Pierluigi Sandonnini

giornalista

La proprietà intellettuale rimane uno dei maggiori problemi irrisolti dell’AI. L’azione legale intentata dagli autori per l’uso del dataset Books3 per addestrare modelli di AI popolari evidenzia i rischi per le aziende che costruiscono e utilizzano l’AI generativa. Ma cosa succederebbe se i modelli di intelligenza artificiale potessero dimenticare? I ricercatori di Microsoft stanno cercando di rispondere a questa domanda. Grazie a una nuova tecnica – ancora senza nome – i ricercatori sono riusciti a far disimparare selettivamente le informazioni da modelli linguistici di grandi dimensioni. Vediamo come.

Indice degli argomenti:

Llama 2-7b ha dimenticato i dati del training

I ricercatori sono riusciti a far dimenticare al modello Llama 2-7b i dettagli sui libri di Harry Potter attraverso una tecnica che prevede l’identificazione di token legati al contenuto, la sostituzione di frasi uniche con frasi generiche e la messa a punto del modello.

Il risultato è stato che il modello ha generato risposte inventate quando gli è stato chiesto di parlare di Harry Potter, e non è più stato in grado di generare una continuazione dettagliata delle storie.

Le aziende potrebbero utilizzare questa tecnica per rimuovere i dati di addestramento parziali, proprietari o che violano il copyright dopo che il modello è stato sviluppato.

Inoltre, questa tecnica potrebbe consentire di aggiornare i modelli in base ai progressi della legislazione e degli standard dei dati, rendendo i sistemi di AI più robusti e a prova di futuro.

“Sebbene il nostro metodo sia nelle fasi iniziali e possa avere dei limiti, è un promettente passo avanti”, scrivono Ronen Eldan di Microsoft Research e Mark Russinovich di Azure in un post sul blog. “Grazie a sforzi come il nostro, immaginiamo un futuro in cui i laureati in legge non siano solo competenti, ma anche adattabili e attenti al vasto arazzo di valori umani, etica e leggi”.

Si può provare il modello su Hugging Face: Llama2-7b-WhoIsHarryPotter.

Come funziona il processo di disapprendimento

Il processo è stato pubblicato in un articolo intitolato “Chi è Harry Potter? Approximate Unlearning in LLMs“.

I ricercatori hanno preso Llama2-7B, uno dei modelli che potrebbero aver usato i libri3, e con la loro nuova tecnica sono riusciti a lanciare un incantesimo di dimenticanza (Obliviate nel mondo di Potter) e a far dimenticare al modello tutte le avventure a Hogwarts.

In assenza di conoscenze sui libri, il modello ricorre a risposte allucinate.

Results from the Who’s Harry Potter? research. Microsoft researchers developed a new technique that allows AI models to selectively

Credito: Microsoft

I ricercatori hanno intrapreso un processo in tre fasi:

Identificare i token relativi al contenuto attraverso il rinforzo della conoscenza target
Sostituzione di frasi univoche dai dati di destinazione con frasi generiche
Messa a punto del modello con le etichette sostituite

Il team ha utilizzato l’apprendimento per rinforzo per identificare la conoscenza di destinazione, ha sostituito frasi specifiche con frasi generiche e ha infine perfezionato il modello sui dati modificati.

È come se si volesse togliere un ingrediente specifico da una torta dopo che è già cotta. Non si può semplicemente toglierlo, ma si possono aggiungere sostituti o sostituzioni per alterare il sapore. Non rimuove direttamente l’informazione, ma la sostituisce con qualcosa di diverso.

Una descrizione più tecnica tratta dal documento recita: “Supponiamo che un modello linguistico generativo sia stato addestrato su un set di dati X. Fissiamo un sottoinsieme Y ⊂ X che chiamiamo obiettivo di disimparare. Il nostro obiettivo è quello di imitare approssimativamente l’effetto della riqualificazione del modello su X \ Y, assumendo che la riqualificazione del modello su X \ Y sia troppo lenta e costosa, rendendola un approccio poco pratico”.

Protezione dei clienti

La ricerca potrebbe rivelarsi un’importante implicazione nello sviluppo e nella manutenzione dei modelli di intelligenza artificiale, in quanto potrebbe ridurre i rischi comunemente associati ai dati di addestramento.

Prima della ricerca, Microsoft era diventata astutamente consapevole dei rischi, e ora l’azienda si assume la responsabilità di aver integrato in fretta e furia l’AI nei suoi principali strumenti di produttività.

L’azienda aveva già riconosciuto i potenziali problemi legali legati all’uso dell’intelligenza artificiale quando, all’inizio di settembre, aveva annunciato che avrebbe supportato qualsiasi causa intentata dai clienti che avessero utilizzato i suoi prodotti AI Copilot.

La possibilità di disporre di uno strumento per disimparare i dati in un modello linguistico di grandi dimensioni potrebbe fungere da ulteriore deterrente per evitare potenziali grattacapi a chi utilizza i suoi sistemi di AI.

Una tecnica ancora agli esordi

Pur essendo promettente, la tecnica ha ancora molta strada da fare. Come notano i ricercatori, il disimparare in modelli linguistici di grandi dimensioni è “impegnativo” ma, come dimostrano i risultati, non è un “compito insormontabile”.

L’approccio si è rivelato efficace, ma i ricercatori osservano che “potrebbe essere potenzialmente cieco rispetto a mezzi più aggressivi di estrazione delle informazioni”.

Ci sono dei limiti a questo primo esperimento. Come si legge nel documento, i libri di Harry Potter sono pieni di espressioni idiosincratiche e nomi distintivi che possono aver “favorito” la strategia di ricerca.

“La presenza pronunciata di temi di Harry Potter nei dati di addestramento di molti modelli linguistici di grandi dimensioni aggrava ulteriormente la sfida”, si legge nel documento. “Data una rappresentazione così diffusa, anche il minimo accenno in un prompt potrebbe suscitare una cascata di completamenti correlati, sottolineando la profondità della memoria insita nel modello”.

Questo problema si estenderebbe anche alla saggistica o ai libri di testo, che possiedono anch’essi una densità di termini e frasi uniche, con l’aggiunta di idee e temi di livello superiore.

“Rimane incerto fino a che punto la nostra tecnica possa efficacemente affrontare e disimparare questi elementi più astratti”, hanno scritto i ricercatori.

@RIPRODUZIONE RISERVATA