AI GENERATIVA

Non solo Sora: l’evoluzione della generazione video



Indirizzo copiato

OpenAI e il suo modello generativo video hanno aperto nuove frontiere nella produzione cinematografica AI. Esploriamo le potenziali implicazioni dell’innovazione attraverso quattro punti chiave sulla direzione che questo campo in continua evoluzione potrebbe prendere

Pubblicato il 28 mar 2024



Somme Requiem
Un fotogramma del film Somme Requiem realizzato Myles utilizzando il modello Gen 2 di Runway.

Quando OpenAI ha svelato il suo nuovo modello generativo video, Sora, nel febbraio 2024, ha invitato un gruppo di cineasti a provarlo. Ora l’azienda ha pubblicato i risultati: sette cortometraggi surreali che non lasciano dubbi sul fatto che il futuro della generazione video si stia avvicinando rapidamente.

Breve excursus dei video generati da AI

Il primo lotto di modelli in grado di trasformare il testo in video è apparso alla fine del 2022, da aziende tra cui Meta, Google e la startup di tecnologia video Runway. Era un trucco interessante, ma i risultati erano granulosi, pieni di glitch e duravano solo pochi secondi. Avanziamo velocemente di 18 mesi e il meglio dell’output ad alta definizione e fotorealistico di Sora è così sorprendente che alcuni osservatori senza fiato stanno prevedendo la morte di Hollywood. I modelli più recenti di Runway possono produrre brevi clip che competono con quelle realizzate dagli studi d’animazione dei blockbuster. Midjourney e Stability AI, le aziende dietro due dei modelli più popolari da testo a immagine, stanno ora lavorando anche sui video. Numerose aziende stanno cercando di creare un business sulla scia di queste scoperte. La maggior parte sta cercando di capire quale sia questo business mentre procede.

Crescono anche le paure di un uso improprio. La capacità diffusa di generare video falsi renderà più facile che mai inondare internet con propaganda e pornografia non consensuale. Il problema è che nessuno ha una buona soluzione. Mentre continuiamo a cercare di capire cosa ci aspetta – bene e male – ecco quattro cose su cui riflettere.

Sora
  1. Sora è solo l’inizio: attualmente Sora di OpenAI supera nettamente la concorrenza nella generazione video. Ma altre aziende stanno lavorando per raggiungerla. Il mercato diventerà estremamente affollato nei prossimi mesi, man mano che sempre più aziende affineranno la loro tecnologia e inizieranno a lanciare i rivali di Sora. La startup britannica Haiper è uscita dalla modalità stealth; è stata fondata nel 2021 da ex ricercatori di Google DeepMind e TikTok che volevano lavorare su una tecnologia chiamata neural radiance fields, o NeRF, che può trasformare le immagini 2D in ambienti virtuali 3D. Pensavano che uno strumento in grado di trasformare gli scatti in scene nelle quali gli utenti potessero entrare sarebbe stato utile per la realizzazione di videogiochi. Ma sei mesi fa, Haiper ha virato dagli ambienti virtuali ai clip video, adattando la sua tecnologia a quello che l’Ad Yishu Miao ritiene sarà un mercato ancora più grande dei giochi.
air head 🎈 a sora short

Air Head è un cortometraggio realizzato da Shy Kids, una band pop e collettivo cinematografico con sede a Toronto, utilizzando Sora. Come Sora di OpenAI, la tecnologia generativa video di Haiper utilizza un modello di diffusione per gestire le immagini e un transformer (il componente nei grandi modelli linguistici come GPT-4 che li rende così bravi a prevedere cosa verrà dopo), per gestire la coerenza tra i fotogrammi.

“I video sono sequenze di dati e i transformer sono il miglior modello per apprendere le sequenze,” dice Miao. La coerenza è una grande sfida per la generazione video e la principale ragione per cui gli strumenti esistenti producono solo pochi secondi di video alla volta. I transformer per la generazione video possono aumentare la qualità e la durata delle clip. Il rovescio della medaglia è che i transformer inventano cose, o allucinano. Nel testo, questo non è sempre evidente. Nel video, può risultare in, diciamo, una persona con molte teste. Mantenere i transformer sulla giusta traccia richiede enormi silos di dati di addestramento e magazzini pieni di computer.

Ecco perché Irreverent Labs, fondata da ex ricercatori Microsoft, sta adottando un approccio diverso. Come Haiper, Irreverent Labs ha iniziato generando ambienti per giochi prima di passare alla completa generazione video. Ma l’azienda non vuole seguire il gregge copiando ciò che stanno facendo OpenAI e altri. “Perché poi diventa una battaglia di calcolo, una vera e propria guerra GPU,” dice David Raskino, co-fondatore e CTO di Irreverent.

Raskino afferma che questo approccio riduce sia i costi di addestramento che il numero di allucinazioni. Il modello produce ancora glitch, ma sono distorsioni della fisica (come una palla che rimbalza non seguendo una curva liscia, per esempio) con correzioni matematiche note che possono essere applicate al video dopo la sua generazione, dice. Quale approccio durerà è ancora da vedere. Miao paragona la tecnologia odierna ai grandi modelli linguistici circa GPT-2. Cinque anni fa, il primo modello rivoluzionario di OpenAI stupì le persone perché mostrava cosa era possibile. Ma ci vollero diversi anni in più perché la tecnologia diventasse un game-changer. È lo stesso con i video, dice Miao.

2. Cosa faranno le persone con la generazione video? Il video è il medium di internet. YouTube, TikTok, cinegiornali, pubblicità: aspettiamoci di vedere video sintetici spuntare ovunque ci sia già un video. L’industria del marketing è uno dei settori più entusiasti dell’adozione della tecnologia generativa. Due terzi dei professionisti del marketing hanno sperimentato l’AI generativa nei loro lavori, secondo un recente sondaggio condotto da Adobe negli Stati Uniti, con più della metà che afferma di aver utilizzato la tecnologia per produrre immagini. La generazione video è la prossima tappa. Alcune agenzie di marketing hanno già pubblicato cortometraggi per dimostrare il potenziale della tecnologia.

L’ultimo esempio è il film di 2,5 minuti Somme Requiem, un cortometraggio realizzato dalla casa di produzione con sede a Los Angeles Myles. Ogni scena è stata generata utilizzando il modello Gen 2 di Runway. Le clip sono state poi montate insieme da un team di montatori video presso Myles. Somme Requiem raffigura soldati bloccati dalla neve durante la tregua natalizia della Prima guerra mondiale nel 1914. Il film è composto da decine di riprese diverse che sono state prodotte utilizzando un modello generativo video di Runway, poi cucite insieme, corrette nei colori e accompagnate da musica dai montatori video umani presso Myles.

“Il futuro della narrazione sarà un flusso di lavoro ibrido,” dice il fondatore e CEO Josh Kahn. Kahn ha scelto l’ambientazione bellica d’epoca per fare una dichiarazione. Fa notare che la serie Apple TV+ Masters of the Air, che segue un gruppo di aviatori della Seconda guerra mondiale, è costata 250 milioni di dollari. Il team dietro al documentario sulla Prima guerra mondiale, They Shall Not Grow Old, del regista Peter Jackson ha impiegato quattro anni per curare e restaurare più di 100 ore di film d’archivio.

“La maggior parte dei cineasti può solo sognare di avere mai l’opportunità di raccontare una storia in questo genere,” dice Kahn. “Penso che vedremo un film horror di successo creato da, tipo, quattro persone in un seminterrato da qualche parte usando l’AI.” Quindi la generazione video è un killer di Hollywood? Non ancora. Le riprese ambientali di Somme Requiem – boschi vuoti, un campo militare desolato – sono ottime. Ma le persone presenti sono ancora afflitte da dita contorte e volti distorti, segni distintivi della tecnologia. La generazione video è migliore nelle panoramiche ad ampio angolo o nei primi piani prolungati, che creano un’atmosfera inquietante ma poca azione. Se Somme Requiem fosse più lungo diventerebbe noioso. Ma le riprese ambientali compaiono tutto il tempo nei film di lungometraggio. La maggior parte dura solo pochi secondi, ma possono richiedere ore per essere girate. Raskino suggerisce che i modelli generativi video potrebbero presto essere utilizzati per produrre quelle riprese intermedie a una frazione del costo. Questo potrebbe anche essere fatto al volo nelle fasi successive della produzione, senza richiedere una nuova ripresa.

Michal Pechoucek, CTO di Gen Digital, il gigante della cybersecurity dietro a una serie di marchi antivirus tra cui Norton e Avast, è d’accordo. “Penso che sia questa la direzione in cui si sta dirigendo la tecnologia,” dice. “Vedremo molti modelli diversi, ciascuno specificamente addestrato in un certo dominio della produzione cinematografica. Questi saranno solo strumenti utilizzati da talentuosi team di produzione video.” Non ci siamo ancora del tutto. Un grosso problema con la generazione video è la mancanza di controllo che gli utenti hanno sull’output. Produrre immagini statiche può essere un colpo al cerchio o alla botte; produrre pochi secondi di video è ancora più rischioso.

“Al momento è ancora divertente” dice Miao. “Ma generare un video che sia esattamente quello che vuoi è un problema tecnico molto difficile. Siamo ancora lontani dal generare video lunghi e coerenti da un singolo prompt.” Ecco perché Lipkowitz di Vyond pensa che la tecnologia non sia ancora pronta per la maggior parte dei clienti aziendali. Questi utenti vogliono molto più controllo sull’aspetto di un video rispetto a quello che gli attuali strumenti offrono, dice. Migliaia di aziende in tutto il mondo, tra cui circa il 65% delle aziende Fortune 500, utilizzano la piattaforma Vyond per creare video animati per comunicazioni interne, formazione, marketing e altro ancora. Vyond si basa su una serie di modelli generativi, tra cui testo-immagine e testo-voce, ma fornisce un’interfaccia drag-and-drop semplice che permette agli utenti di mettere insieme un video a mano, pezzo per pezzo, piuttosto che generare un clip completo con un clic. Far funzionare un modello generativo è come tirare i dadi, dice Lipkowitz.

“Questo è un no deciso per la maggior parte dei team di produzione video, in particolare nel settore enterprise dove tutto deve essere perfetto al pixel e in linea con il marchio,” dice. “Se il video risulta brutto – magari i personaggi hanno troppe dita, o magari c’è un logo aziendale del colore sbagliato – beh, sfortunato, è così che funziona l’AI gen.” La soluzione? Più dati, più addestramento, ripetere.

3. La disinformazione non è una novità, ma i deepfake la peggioreranno. La disinformazione online sta minando la nostra fiducia nei media, nelle istituzioni e gli uni negli altri da anni. Alcuni temono che l’aggiunta di video falsi al mix distruggerà qualsiasi pilastro di realtà condivisa ci sia rimasto. “Stiamo sostituendo la fiducia con la sfiducia, la confusione, la paura e l’odio,” dice Pechoucek.

“Una società senza verità oggettiva degenererà.” Pechoucek è particolarmente preoccupato per l’uso malizioso dei deepfake nelle elezioni. Durante le elezioni dell’anno scorso in Slovacchia, per esempio, gli aggressori hanno condiviso un video falso che mostrava il candidato principale discutere piani per manipolare gli elettori. Il video era di bassa qualità e facile da individuare come un deepfake. Ma Pechoucek crede che sia stato sufficiente a far pendere il risultato a favore dell’altro candidato. Adventurous Puppies è un breve clip realizzato da OpenAI con Sora. John Wissinger, che guida i team di strategia e innovazione presso Blackbird AI, un’azienda che traccia e gestisce la diffusione della disinformazione online, ritiene che il video falso sarà più persuasivo quando mescolerà filmati reali e falsi.

Prendiamo due video che mostrano il presidente Joe Biden camminare su un palco. In uno inciampa, nell’altro no. Chi può dire quale sia reale? “Supponiamo che un evento sia effettivamente accaduto, ma il modo in cui mi viene presentato è sottilmente diverso,” dice Wissinger. “Ciò può influenzare la mia risposta emotiva ad esso.”

Come ha notato Pechoucek, un video falso non ha nemmeno bisogno di essere così buono per fare colpo. Un falso cattivo che si adatta ai pregiudizi esistenti farà più danni di un falso lucido che non lo fa, dice Wissinger. Ecco perché Blackbird si concentra su chi sta condividendo cosa con chi. In un certo senso, se qualcosa è vera o falsa è meno importante di dove proviene e come viene diffusa, dice Wissinger. La sua azienda traccia già la disinformazione low-tech, come i post sui social media che mostrano immagini reali fuori contesto. Le tecnologie generative peggiorano le cose, ma il problema delle persone che presentano i media in modi fuorvianti, volontariamente o meno, non è nuovo, dice. Gettate nella mischia i bot che condividono e promuovono la disinformazione sui social network e le cose si complicano. Solo sapendo che ci sono media falsi in giro seminerà semi di dubbio nel discorso di malafede.

4. Stiamo affrontando una nuova realtà online. I falsi saranno presto ovunque, dalle campagne di disinformazione, agli spot pubblicitari, ai blockbuster di Hollywood. Quindi cosa possiamo fare per capire cosa è reale e cosa è solo fantasia? Ci sono una serie di soluzioni, ma nessuna funzionerà da sola. L’industria tecnologica sta lavorando al problema. La maggior parte degli strumenti generativi cerca di far rispettare certe condizioni d’uso, come impedire alle persone di creare video di personaggi pubblici. Ma ci sono modi per bypassare questi filtri e le versioni open source degli strumenti possono avere politiche più permissive. Le aziende stanno anche sviluppando standard per l’apposizione di watermark sui media generati dall’AI e strumenti per rilevarli. Ma non tutti gli strumenti aggiungeranno watermark, e i watermark possono essere rimossi dai metadati di un video.

Articoli correlati

Articolo 1 di 4