NEWS

Google Lumiere, il nuovo modello che crea video realistici

Home Intelligenza Artificiale

Un modello di text-to-video all’avanguardia che utilizza una nuova tecnica per creare video da brevi input di testo

Pubblicato il 30 gen 2024

Aggiungi tra i preferiti su Google

Redazione

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Google ha presentato Lumiere, un nuovo modello di text-to-video in grado di generare video realistici da brevi input di testo. Lumiere può persino utilizzare immagini e altri video come input per migliorare i risultati. Presentato in un documento intitolato “A Space-Time Diffusion Model for Video Generation”, Lumiere funziona in modo diverso dai modelli di generazione video esistenti. Genera una durata temporale del video in una sola volta, mentre i modelli esistenti sintetizzano fotogrammi chiave distanti seguiti da una super-risoluzione temporale.

In altre parole, Lumiere si concentra sul movimento degli oggetti nell’immagine, mentre i sistemi precedenti mettono insieme un video a partire da fotogrammi chiave in cui il movimento è già avvenuto.

Lumiere

Guarda questo video su YouTube

Video: Google Lumiere

Indice degli argomenti:

Lumiere genera video da 80 fotogrammi

Il modello è in grado di generare video composti da 80 fotogrammi. A titolo di confronto, la Stable Video Diffusion di Stability raggiunge i 14 e i 25 fotogrammi. Maggiore è il numero di fotogrammi, più fluido è il movimento del video.

Secondo il team di Google, Lumiere supera i modelli di generazione video rivali, come Pika, Meta e Runway, in vari test, tra cui quello a zero scatti.

I ricercatori sostengono inoltre che Lumiere produce risultati di generazione all’avanguardia grazie al suo approccio alternativo. I risultati di Lumiere potrebbero essere utilizzati in attività di creazione di contenuti e di editing video, tra cui l’inpainting dei video e la generazione stilizzata (che imita gli stili artistici che vengono mostrati) utilizzando i pesi del modello testo-immagine, che sono stati finemente sintonizzati.

google lumiereDescrizione generata automaticamente

Fonte: Google

Lumiere, una nuova architettura Space-Time U-Net

Per ottenere i suoi risultati, Lumiere sfrutta una nuova architettura, Space-Time U-Net. Questa genera l’intera durata temporale del video in una sola volta, attraverso un singolo passaggio nel modello.

Il team di Google scrive che il nuovo approccio migliora la coerenza dei risultati. “Utilizzando sia il down-sampling che l’up-sampling spaziale e (soprattutto) temporale e sfruttando un modello di diffusione testo-immagine pre-addestrato, il nostro modello impara a generare direttamente un video a bassa risoluzione a pieno ritmo elaborandolo su più scale spazio-temporali”, si legge nel documento.

Fonte: Google

L’obiettivo del progetto Lumiere era quello di creare un sistema che consentisse agli utenti meno esperti di creare più facilmente contenuti video.

Tuttavia, il documento riconosce il rischio di potenziali abusi, avvertendo in particolare che modelli come Lumiere potrebbero essere utilizzati per creare contenuti falsi o dannosi.

“Riteniamo che sia fondamentale sviluppare e applicare strumenti per individuare i pregiudizi e i casi d’uso dannosi, al fine di garantire un uso sicuro e corretto”, si legge nel documento.

Al momento in cui scriviamo, Google non ha reso il modello disponibile al pubblico. Tuttavia, è possibile esplorare diversi esempi di generazione nella pagina di presentazione su GitHub.

Google intensifica il lavoro sui video

Lumiere segue VideoPoet, un modello multimodale prodotto da Google che crea video da input di testo, video e immagini. Presentato lo scorso dicembre, VideoPoet utilizza un’architettura di trasformazione solo decoder, che lo rende in grado di creare contenuti su cui non è stato addestrato.

Google ha sviluppato diversi modelli di generazione video, tra cui Phenaki e Imagen Video, oltre a prevedere di coprire i video generati dall’intelligenza artificiale con il suo strumento di rilevamento SynthID.

Il lavoro di Google sui video è complementare al modello Gemini, in particolare all’endpoint multimodale Pro Vision, in grado di gestire immagini e video come input e di generare testo come output.

@RIPRODUZIONE RISERVATA