Negli ultimi nove mesi (mentre scriviamo siamo a settembre 2025), OpenAI ha reso pubblico Sora, Google DeepMind ha lanciato Veo 3 e la startup Runway ha introdotto Gen-4. Questi strumenti producono clip difficili da distinguere da riprese reali o animazioni CGI. Perfino Netflix ha adottato effetti generati da AI in The Eternaut, segnando il debutto televisivo di massa di questa tecnologia.
Se un tempo erano demo curate ad arte, oggi chiunque, con un abbonamento a ChatGPT o Gemini, può chiedere di produrre un video AI Gen. Non sempre il risultato è perfetto, ma la facilità d’uso ha democratizzato la creazione audiovisiva.
Indice degli argomenti:
Come funzionano i video AI Gen: la diffusione, dal caos all’immagine
Il cuore della tecnologia di generazione AI di video è il modello di diffusione. Immaginate di sporcare un’immagine con pixel casuali fino a ridurla a statico televisivo. Un modello di diffusione impara a invertire il processo: dal rumore al contenuto. Durante l’addestramento, osserva milioni di immagini a vari livelli di degradazione, apprendendo come “ripulirle” passo dopo passo.
Quando l’utente fornisce un prompt testuale, un modello linguistico (LLM) guida la diffusione, spingendola verso immagini coerenti con la descrizione. Tuttavia, i dataset usati (miliardi di coppie testo-immagine/video estratti dal web) sollevano critiche da parte dei creatori, preoccupati per l’uso non autorizzato delle proprie opere.
Dalla diffusione latente ai video
Il problema è che elaborare milioni di pixel per ogni frame video è insostenibile. Ecco perché si usa la diffusione latente, che comprime immagini e testo in un “codice matematico” essenziale. È un po’ come lo streaming: il video viaggia compresso e viene ricostruito sullo schermo.
Alla fine del processo, il modello decompatta i frame generati, trasformando codici numerici in clip guardabili. Più efficiente, certo, ma ancora energivoro rispetto alla generazione di immagini o testi.
L’aiuto dei transformer: consistenza tra i frame
Il passo successivo è garantire coerenza visiva. OpenAI ha combinato la diffusione con i transformer, modelli noti per gestire sequenze di dati (parole nei testi, frame nei video). Come spiega Tim Brooks, ricercatore di Sora: “È come avere una pila di frame video e tagliarla in piccoli cubi”.
Questa architettura permette di mantenere oggetti e luci stabili da un frame all’altro, evitando che elementi compaiano o scompaiano. Inoltre, i video possono essere addestrati in vari formati – dai verticali per smartphone alle produzioni cinematografiche – ampliando enormemente la flessibilità dei modelli.
L’audio: la fine dell’era muta
La vera rivoluzione di Veo 3 è l’audio integrato. Per la prima volta, un modello genera video con dialoghi sincronizzati, effetti sonori e rumori ambientali. Come ha dichiarato Demis Hassabis, CEO di DeepMind: “Stiamo uscendo dall’era del cinema muto della generazione video”.
Il segreto è una nuova tecnica che comprime insieme audio e video, permettendo al processo di diffusione di generarli in parallelo e perfettamente sincronizzati.
Il lato oscuro: consumo di energia e contenuti falsi
L’altra faccia della medaglia è duplice. Da un lato, i creatori competono con un’ondata di contenuti mediocri (“AI slop”) che intasano i social. Dall’altro, la generazione video consuma enormi quantità di energia, molto più di testo o immagini, sollevando interrogativi sulla sostenibilità.
Diffusione contro transformer: una convergenza in arrivo
Oggi i modelli di diffusione dominano nella generazione di immagini, audio e video, mentre gli LLM testuali si basano sui transformer. Ma le linee si stanno sfumando. Google DeepMind ha persino annunciato un prototipo di LLM basato su diffusione, potenzialmente più efficiente dei modelli attuali.
Il futuro potrebbe quindi vedere un avvicinamento tra approcci, con l’AI capace di creare testi, immagini, audio e video sfruttando combinazioni ibride di diffusione e transformer.
Architettura generale: principi comuni
- Diffusione latente (Latent Diffusion Models, LDM)
Molti dei modelli moderni non operano direttamente sui pixel raw del video, ma comprimono i frame video, tramite un VAE (Variational Autoencoder) o simili, in uno spazio latente. Là si applica il processo di diffusione, cioè un processo iterativo di “rumore → denoising”. Questo riduce costi computazionali e memoria. - Patch temporo-spaziali / Spacetime Patch
Per gestire la dimensione aggiuntiva del tempo, i video vengono suddivisi in “patch” che non sono solo spaziali (porzioni di immagine), ma anche temporali: piccoli cubi di spazio-tempo. I transformer vengono applicati su sequenze di questi token/patch. Ciò permette di modellare sia le relazioni spaziali (dentro un frame) sia le relazioni temporali (tra frame) con attenzione. - Transformer + Diffusione
Il modello di diffusione fornisce il “rombo” generativo (rumore che viene raffinato), mentre il trasformatore (o serie di blocchi transformer) è il componente che guida quel processo, modellando le dipendenze temporali, la coerenza, le condizioni (text prompt, condizioni visive, ecc.). - Condizionamento testuale e altri segnali
Per far sì che il video segua un prompt testuale (“una foresta al tramonto,” ecc.), il modello integra meccanismi di condizionamento: cross-attention, embedding del testo, normalizzazione adattativa condizionata, ecc. Questi segnali aiutano a “spingere” la generazione verso ciò che l’utente desidera. - Sugli aspetti temporali / coerenza
Un grosso problema tecnico è garantire che oggetti, luci, colori, camminamenti, prospettive rimangano coerenti lungo la sequenza di frame, per evitare “salti”, “scatti”, cambiamenti improvvisi che distraggono. Per questo si usano:- attenzione temporale esplicita tra frame vicini;
- moduli che operano su sequenze temporali all’interno dei transformer;
- apprendimento con dataset video che esibiscono grande varietà (durate, angoli, movimenti) per “allenare” la stabilità.
- Cascading / super-risoluzione
Per ottenere video a risoluzioni più alte o con qualità visiva maggiorata, spesso si usa un approccio a stadi: prima si genera in latente a risoluzione/modelli base, poi si applicano modelli di upscaling o di super-risoluzione video.
Sfide tecniche
- Scalabilità computazionale: la mole di dati video è enorme, sia in termini di pixel che di sequenze temporali. Anche con latenza e compressione, il costo resta elevato.
- Coerenza su lungo periodo: mantenere temi, oggetti, stile, illuminazione su durate lunghe rimane difficile, specialmente se ci sono molti cambi di scena.
- Memoria e velocità durante il training e l’inferenza: l’attenzione spazio-temporale è costosa; molti modelli usano attenzioni locali (windowed), modulano il numero di frame/processi, o usano livelli di compressione pesante.
- Dettaglio vs compressione: la compressione migliora efficienza ma perde dettaglio; alcuni modelli cercano di recuperare tramite decodifica raffinata o moduli di super-risoluzione.
- Condizionamento / controllo: i prompt testuali possono essere vaghi; controllare meglio le immagini di riferimento, il movimento, la fisica, la sincronizzazione audio-video è ancora area di ricerca attiva.
I dettagli tecnici di Sora, Veo 3 e Gen-4
Sora (OpenAI)
- Durata massima: con il Video Editor, gli utenti possono generare video fino a 20 secondi mantenendo buona qualità visiva e aderenza al prompt.
- Risoluzione e piani: con il piano ChatGPT Plus video fino a 720p, 10 secondi; con ChatGPT Pro si arriva fino a 1080p, 20 secondi e vide clip senza watermark.
- Formati: vari rapporti d’aspetto supportati (orizzontale, verticale, quadrato).
- Filtri di sicurezza: Sora ha già un sistema robusto di «content filtering», monitoraggio abusi, blocco contenuti sensibili; per esempio limiti sulla generazione di immagini realistiche di persone per mitigare il rischio di deepfake.
Veo 3 (Google)
- Video con audio nativo: Veo 3 non solo genera immagini/video, ma anche audio sincronizzato (dialoghi, effetti, rumori ambientali) come parte del processo.
- Risoluzione e formati: supporta video in 720p e 1080p; rapporti d’aspetto 16:9 (orizzontale) e 9:16 (verticale) sono ammessi.
- Lunghezza: video generati con prompt testuale durano tipicamente 8 secondi.
- Veo 3 Fast: versione più veloce ed economica rispetto al Veo 3 “standard”, che mantiene qualità elevata ma ottimizza tempi e costi. Ideale per prototipi o applicazioni dove serve generare molti video.
- Limiti dell’API: poche richieste al minuto per progetto; numero massimo di video per richiesta; lunghezza del video limitata (4, 6, 8 secondi) per certi casi; dimensione massima per immagini se si usa modalità image-to-video.
Gen-4 (Runway)
- Controllo e coerenza elevati: Gen-4 permette di fornire immagini di riferimento (“reference images”) per soggetti, oggetti o ambienti che si desidera mantengano coerenza visiva attraverso i frame (anche sotto diversi angoli, luci cangianti).
- Durate & modalità: produce video di 5 o 10 secondi in base al prompt immagine + testo. Esiste la versione “Turbo” che accelera le generazioni ed è meno costosa.
- Miglioramenti rispetto alle versioni precedenti: movimenti più realistici, riduzione degli artefatti visivi (confini degli oggetti, cambiamenti di oggetto/personaggio tra frame), migliore interpretazione di prompt complessi.
- Similitudine con video VFX / animazione: Runway sottolinea che Gen-4 può integrarsi o affiancarsi a contenuti live action, animazione e effetti visivi, offrendo flessibilità per produzioni ibride.
Cosa ne pensano dei video generati dall’AI alcuni registi famosi
Steven Spielberg
- Spielberg ha dichiarato che non vuole che l’AI prenda decisioni creative che lui stesso non possa controllare. (The Star)
- È contrario all’idea di usare l’AI come “collaboratore non umano” nella narrazione o nelle componenti artistiche principali dei film. (The Star)
- Al momento ammette che l’AI può servire come strumento dietro le quinte (logistica, pianificazione, finanziamenti) ma pone una linea – “una linea nella sabbia” – oltre la quale non vuole spingersi. (mint)
Tim Burton
- Tim Burton ha espressamente criticato le imitazioni automatiche del suo stile realizzate con AI, definendole “perturbanti”.
- Ha detto che è come se un robot “rubasse l’umanità”, nel senso che la sua visione personale, il tratto artistico fatto di imperfezioni e di scelta umana, viene svuotato da imitazioni digitali. (EW.com)
Hayao Miyazaki
- Miyazaki è probabilmente uno dei critici più noti di questa tendenza: ha detto che alcune animazioni generate via AI lo fanno rabbrividire, definendo certi lavori “un insulto alla vita stessa”.
- Non ha in programma di usare l’AI negli studi Ghibli, almeno per come la vede ora, perché ritiene che l’arte richieda esperienza umana, emozione, sofferenza, elementi che l’AI non può “sentire.” (Wikipedia)
Rob Minkoff (“Il Re Leone”)
- Minkoff vede l’AI con una certa speranza: crede che possa “democratizzare” il cinema, abbassando le barriere per chi non ha grandi risorse.
- Allo stesso tempo, riconosce che ci sono preoccupazioni reali circa copyright, proprietà intellettuale, uso non etico dei contenuti di training. (CNBC)
Christopher Nolan
- Nolan ha messo in guardia sul fatto che ci sia un momento “alla Oppenheimer” anche per gli esperti dell’AI, ovvero che le implicazioni morali e sociali sono così forti che devono essere affrontate responsabilmente.
- Ritiene che l’AI possa rappresentare “tremende opportunità” in settori come gli effetti visivi, a patto che siano bilanciate da responsabilità: chi usa l’AI deve essere responsabile per le sue decisioni. (The Guardian)
Nicolas Cage
- Cage è molto critico. Ha detto che “i robot non possono riflettere la condizione umana” e che permettere all’AI di manipolare le performance rischia di consumare verità, purezza e integrità dell’arte.
- Ha avvertito che, se si lascia che l’AI entri troppo nel processo artistico, la spinta verso interessi finanziari può alla fine sostituire il cuore dell’arte. (Forbes)







