DreamFusion di Google utilizza l'AI per generare modelli 3D dal testo

DreamFusion di Google utilizza l’AI per generare modelli 3D dal testo

Ultimo arrivato fra i modelli di intelligenza artificiale generativa, non richiede alcun addestramento sui dati del modello 3D

Pubblicato il 10 Ott 2022

Ultimi in ordine di tempo, anche i ricercatori di Google svelano uno strumento di intelligenza artificiale generativa in grado di trasformare i prompt di testo in rappresentazioni 3D digitali: DreamFusion. Si tratta di una versione ampliata di Dream Fields, un sistema 3D generativo che Google ha presentato nel 2021. Quest’ultima versione, tuttavia, non richiede alcuna formazione preliminare, il che significa che DreamFusion può generare rappresentazioni 3D di oggetti senza dati 3D.

Il sistema utilizza immagini 2D di un oggetto generato dal modello di diffusione da testo a immagine Imagen per comprendere le diverse prospettive del modello che sta cercando di generare.

Secondo i ricercatori di intelligenza artificiale di Google, il modello 3D risultante “può essere visualizzato da qualsiasi angolazione, riprodotto da un’illuminazione arbitraria o composito in qualsiasi ambiente 3D”.

Indice degli argomenti:

DreamFusion: come funziona?

Il team di Google ha proposto il concetto di Score Distillation Sampling (SDS), un modo per generare campioni da un modello di diffusione ottimizzando una funzione di perdita.

I ricercatori di Google hanno quindi utilizzato una parametrizzazione della scena 3D simile ai neural Radiance Fields, o NeRF, per definire la mappatura differenziabile di un modello.

DreamFusion in quattro passi

Passo 1) Digitare il prompt. L’esempio offerto da Google è “una foto DSLR di un pavone su una tavola da surf”.

Passo 2) Applicare il modello Imagen per creare vari angoli 2D del modello prospettico per prevedere potenziali problemi che potrebbero influire sulla qualità del modello.

Passo 3) Applicare una parametrizzazione della scena 3D come NerF per ottimizzare ulteriormente l’immagine. Ripetere questa azione per ottenere i migliori risultati.

Passo 4) Il risultato è una rappresentazione 3D di un pavone su una tavola da surf. Ora è possibile esportarlo come mesh, utilizzando i formati di file STL o PLY, per l’utilizzo in un’altra scena o progetto.

Per una spiegazione più approfondita, il documento di Google che delinea DreamFusion è disponibile tramite arXiv.

I concorrenti di DreamFusion

DreamFusion segue una serie di strumenti di intelligenza artificiale generativa presentati negli ultimi tempi: DALL-E di OpenAI, seguito da altri motori text-to-image, tra cui Midjourney e Stable Diffusion. Da segnalare anche il lancio di PromptBase, una piattaforma di mercato online che offre agli utenti la possibilità di acquistare prompt per generare le immagini desiderate.

Lo U.S. Copyright Office ha persino concesso protezione a un’opera generata dall’AI. Ma tutti sono concordi: diverse piattaforme online, tra cui Getty Images, hanno vietato i contenuti generati dall’AI sui loro siti.

L’interesse per l’AI generativa non si limita alle immagini, come dimostra il recente annuncio di Meta, che ha presentato Make-A-Video, un sistema di intelligenza artificiale in grado di generare video da richieste di testo.

DreamFusion di Google utilizza l’AI per generare modelli 3D dal testo

DreamFusion: come funziona?

DreamFusion in quattro passi

I concorrenti di DreamFusion

Articoli correlati

ChatGPT di OpenAI: tutto sul chatbot più famoso al mondo

Google Cloud Next '23, tutte le novità AI annunciate

Codice Rss

Codice Rss