Durante l’evento GTC 2024, NVIDIA ha presentato il suo ultimo modello di intelligenza artificiale generativa in 3D, LATTE3D. Questo strumento rende il processo più veloce, più intuitivo e più efficiente, ed è in grado di generare un immagine 3D in pochi secondi partendo da una richiesta testuale o “prompt”. Vediamo le caratteristiche di LATTE3D, il suo funzionamento e le potenziali implicazioni per il futuro del design e della creatività digitale.
Cosa è LATTE3D
LATTE3D è un modello IA che funziona come una stampante 3D virtuale. Converte le descrizioni testuali in rappresentazioni 3D di oggetti e animali in pochi secondi. Una creazione quasi istantanea.
“Un anno fa, i modelli di intelligenza artificiale impiegavano un’ora per generare immagini 3D di questa qualità, e lo stato attuale dell’arte è ora di circa 10-12 secondi“, ha affermato Sanja Fidler, vicepresidente della ricerca sull’intelligenza artificiale presso NVIDIA, con sede a Toronto. E’ stata questa squadra del laboratorio di intelligenza artificiale che ha sviluppato LATTE3D. “Ora possiamo produrre risultati in un ordine di grandezza più veloce, mettendo la generazione di testo in 3D quasi in tempo reale alla portata dei creatori di tutti i settori”.
Il modello è stato addestrato utilizzando i potenti GPU NVIDIA A100 Tensor Core . Il modello è stato addestrato solo per due tipi specifici di risorse: animali e oggetti di uso quotidiano.
Per l’inferenza, invece, si avvale di una singola GPU NVIDIA RTX A6000. E’ stato addestrato su una varietà di prompt di testo generati tramite ChatGPT. In questo modo, la sua capacità di interpretare le frasi che l’utilizzatore potrebbe utilizzare è stata migliorata.
Come funziona
Ci sono due fasi distinte per ottimizzare la creazione di texture e geometria degli oggetti 3D.
Nella prima fase, il metodo impiega il rendering volumetrico. Qui vengono formate simultaneamente sia la texture sia la struttura geometrica degli oggetti. La fase utilizza una strategia di addestramento avanzata che integra un gradiente SDS derivato da un modello basato sulla consapevolezza spaziale delle immagini 3D e una funzione di perdita di regolarizzazione.
La funzione di perdita di regolarizzazione esegue un confronto tra le maschere generate dalle forme previste e una collezione di asset 3D preesistenti. L’obiettivo è quello di migliorare la capacità del sistema di rispondere efficacemente ai prompt di input. Entrambe le reti neurali impiegate in questa fase, una dedicata alla texture (T) e l’altra alla geometria (G), sono basate su una fusione di architetture triplane e U-Nets, condividendo gli stessi pesi per gli encoder.
Nella seconda fase, il modello affina ulteriormente la qualità visiva concentrandosi esclusivamente sull’aggiornamento della texture. Ciò avviene mediante il rendering basato sulla superficie. Qui la rete geometrica (G) viene mantenuta invariata (o “congelata”); la rete dedicata alla texture (T) viene aggiornata per migliorare i dettagli e la nitidezza delle immagini generate.
Questa fase introduce anche un processo di upsample dei triplane attraverso un Multilayer Perceptron (MLP). Elaborando l’embedding testuale, consente un maggiore livello di dettaglio e aderenza alle specifiche fornite via testo. La combinazione delle due fasi consente a LATTE3D di produrre risultati di alta qualità; ottimizzare sia la fedeltà geometrica sia la qualità della texture degli oggetti 3D generati; mantenere una notevole efficienza nel processo di generazione.
Applicazioni pratiche di LATTE3D
Le applicazioni di LATTE3D sono vaste e toccano diversi settori. Per i creatori di videogiochi, può accelerare significativamente il processo di sviluppo; genera rapidamente asset 3D per i mondi virtuali. Nel campo della pubblicità e del design, gli artisti lo possono utilizzare per visualizzare rapidamente le loro idee; quindi iterare su di esse senza cercare manualmente nelle librerie di asset o iniziare da zero.
Inoltre, il modello ha il potenziale per rivoluzionare il modo in cui i robot vengono addestrati. Fornisce ambienti di simulazione dettagliati per preparare i robot al lavoro nel mondo reale. Anche i paesaggisti potrebbero utilizzare LATTE3D. Possono popolare rapidamente una scena con piante 3D durante la pianificazione di un giardino; mentre i designer di interni potrebbero generare oggetti per simulazioni domestiche.
Opinioni e prospettive
La capacità di generare modelli 3D di alta qualità in una frazione del tempo precedentemente necessario non è solo una conquista tecnologica, ma anche un catalizzatore per la creatività. NVIDIA continua a mostrare il suo impegno nell’innovazione IA, e ha anche fornito uno strumento che potrebbe democratizzare la creazione di contenuti 3D, rendendola accessibile a un pubblico più ampio.
La velocità e l’efficienza di LATTE3D potrebbero ridurre i costi e i tempi di produzione, consentendo alle aziende di rispondere più rapidamente alle esigenze del mercato e di sperimentare senza il timore di investire ore in modellazione e rendering. Questo potrebbe portare a un’esplosione di contenuti 3D personalizzati e a una maggiore sperimentazione nel design.
Anche se LATTE3D è principalmente una prova di concetto, in quanto Nvidia non ha rilasciato nel il software ne il codice sorgente, ciò che è più significativo è ciò che mostra sulla velocità con cui si sta evolvendo il processo “text to 3d-image”. Presto potrebbero arrivare servizi di “text to 3d-image” utilizzabili pubblicamente.