Un team di ricerca internazionale guidato dalla National Yang Ming Chiao Tung University di Taiwan, in collaborazione con l’Università dell’Illinois, ha sviluppato Skyfall-GS; è un sistema capace di generare città tridimensionali complete partendo esclusivamente da fotografie satellitari. Si tratta di di ambienti urbani percorribili in tempo reale; è possibile camminare virtualmente per le strade, osservare i dettagli degli edifici e vivere un’esperienza immersiva paragonabile a quella dei videogiochi più avanzati. Questa tecnologia elimina la necessità di operazioni di scansione terrestre con veicoli attrezzati o LiDAR; fino ad oggi rappresentavano l’unico modo per ottenere ricostruzioni urbane di alta qualità.
Skyfall-GS è stato rilasciato come progetto open source con licenza MIT; quindi, il codice è accessibile a chiunque desideri sperimentarlo o migliorarlo. La tecnologia alla base di Skyfall-GS rappresenta una sintesi di approcci diversi: il 3D Gaussian Splatting e i modelli di diffusione. Il 3D Gaussian Splatting è una tecnica emergente per la rappresentazione tridimensionale basata su punti luminosi invece che su poligoni tradizionali; mentre i modelli di diffusione sono la stessa famiglia di intelligenze artificiali che alimenta generatori di immagini come Stable Diffusion o DALL-E.


Ma ciò che rende Skyfall-GS particolarmente notevole è la sua accessibilità hardware. Il sistema funziona su schede grafiche consumer comuni. Raggiunge prestazioni di rendering in tempo reale anche su dispositivi portatili.
Il problema delle immagini satellitari
Le immagini satellitari catturano il mondo da una prospettiva limitata. I satelliti orbitano a centinaia di chilometri di altitudine e fotografano la superficie terrestre dall’alto verso il basso. Questa geometria di acquisizione significa che le facciate degli edifici, i dettagli architettonici verticali, la vegetazione a livello stradale, gli elementi urbani minori sono quasi completamente assenti o estremamente distorte.
Il problema tecnico si chiama parallasse limitata. La parallasse è la differenza apparente di posizione di un oggetto quando viene osservato da due punti diversi; è il principio che permette ai nostri occhi di percepire la profondità. Consente alle tecniche fotogrammetriche di ricostruire geometrie tridimensionali da fotografie multiple. Nel caso delle immagini satellitari la parallasse risultante è minima. Gli edifici vengono catturati principalmente nella loro estensione orizzontale; quindi, con le pareti laterali appena visibili o completamente nascoste da altri edifici o dalla prospettiva stessa.
La soluzione introdotta da Skyfall-GS
Skyfall-GS risolve le limitazioni delle tecnologie precedenti attraverso un’architettura a due componenti. La prima componente è il 3D Gaussian Splatting (3DGS). E’ una tecnica di rappresentazione geometrica che descrive la scena come una collezione di “gaussiane” tridimensionali; ovvero, nuvole di punti luminosi ciascuna con la propria posizione, colore, opacità e orientazione spaziale.


Il sistema inizia ricostruendo la struttura scheletrica della città dalle immagini satellitari disponibili. Skyfall-GS genera un primo modello 3DGS grezzo che cattura la disposizione generale degli edifici, la topografia del terreno e gli elementi urbani principali. Questo modello iniziale è però incompleto e impreciso. Quindi, entra in gioco la seconda componente fondamentale del sistema: i modelli di diffusione.


I modelli di diffusione sono reti neurali addestrate su miliardi di immagini; generano contenuti visivi realistici partendo da descrizioni testuali o da immagini parziali. Skyfall-GS sfrutta questa capacità; genera un’immagine imperfetta. Il modello di diffusione, attraverso la tecnica del prompt-to-prompt editing, “corregge” l’immagine aggiungendo dettagli realistici dove mancano, eliminando artefatti e migliorando la coerenza visiva generale.
La fase finale
Poi interviene la strategia curriculum-based chiamata “Skyfall”. Invece di raffinare direttamente il modello per viste a livello stradale, il sistema adotta un approccio graduale ispirato al curriculum learning; è una tecnica di machine learning dove si inizia con compiti semplici per poi aumentare progressivamente la difficoltà. Skyfall-GS inizia generando e raffinando viste da angolazioni elevate (60 gradi rispetto al terreno); le immagini sono ancora relativamente simili alle fotografie satellitari originali e quindi più facili da gestire.


Attraverso iterazioni successive (quattro fasi), l’angolazione della camera virtuale è abbassata fino a raggiungere viste orizzontali a livello stradale (0 gradi). A ogni iterazione, le immagini raffinate vengono reintegrate nel processo di addestramento del modello 3DGS, permettendo alla geometria di adattarsi e migliorare progressivamente. Questa “discesa dal cielo” (skyfall, appunto) consente al sistema di costruire dettagli sempre più fini mantenendo la coerenza geometrica globale.
Prestazioni e risultati di Skyfall-GS
I risultati quantitativi e qualitativi di Skyfall-GS sono notevoli sotto molteplici aspetti. In test condotti su dataset reali di Jacksonville, Florida, e New York City, il sistema ha dimostrato una superiorità marcata rispetto alle tecnologie concorrenti. In oltre il 90% dei casi, Skyfall-GS è stato giudicato superiore sia per accuratezza geometrica che per qualità complessiva. Mentre sistemi come GSGaussian producevano facciate sfocate e prive di dettaglio, Skyfall-GS riusciva a generare finestre nitide, texture realistiche dei materiali da costruzione e persino elementi decorativi architettonici.
Dal punto di vista delle prestazioni computazionali, su una GPU consumer come la RTX 3060, Skyfall-GS raggiunge 69 fotogrammi al secondo; un frame rate più che sufficiente per esplorazioni fluide in tempo reale. Su hardware portatile equipaggiato con RTX 4060, il sistema mantiene ancora i 60 fps.
Tuttavia, la fase di raffinamento basata su modelli di diffusione richiede comunque risorse computazionali significative; questo è al momento il principale collo di bottiglia del sistema. Processare un’area urbana di dimensioni medie può richiedere diverse ore su GPU high-end. Ma una volta generato il modello 3DGS finale, l’esplorazione interattiva avviene con le prestazioni real-time menzionate sopra.
Conclusioni
L’emergere di Skyfall-GS segna un momento di transizione nel modo in cui concepiamo la relazione tra mondo fisico e rappresentazioni digitali. Per la prima volta, con Skyfall-GS è possibile trasformare dati di osservazione remota ampiamente disponibili in ambienti virtuali immersivi e percorribili; senza la necessità di infrastrutture di acquisizione terrestre costose o intrusive.
Inoltre, la scelta di rilasciare Skyfall-GS come progetto open source con licenza MIT è particolarmente significativa. Il sistema open source può essere studiato, modificato, migliorato e adattato da una comunità globale di ricercatori e sviluppatori. La comunità può contribuire con ottimizzazioni per piattaforme hardware specifiche, integrazioni con altri strumenti software, dataset specializzati per particolari tipi di ambienti urbani o miglioramenti algoritmici che affrontano i limiti attuali.










