NVIDIA ha rilasciato NitroGen, un modello di intelligenza artificiale capace di giocare ai videogiochi commerciali. Il sistema è stato addestrato su 40.000 ore di gameplay raccolte da oltre 1.000 titoli diversi, senza bisogno di accedere al codice dei giochi o a costose sessioni di raccolta dati con operatori umani. La chiave sta nell’utilizzo di video pubblici che mostrano gli input overlay; ovvero quelle visualizzazioni del controller che molti streamer inseriscono negli angoli dello schermo durante le trasmissioni. Il team ha raccolto inizialmente 71.000 ore di materiale grezzo; poi filtrato in base alla densità delle azioni per eliminare segmenti troppo statici.


Il risultato finale comprendeva 38.739 video provenienti da 818 creatori; 846 giochi hanno almeno un’ora di dati, 91 superano le 100 ore e 15 titoli contano più di 1.000 ore ciascuno. Gli action RPG dominano con il 34,9% del totale. Sono seguiti dai platform al 18,4% e dai giochi action-adventure al 9,2%.
NitroGen : estrazione automatica delle azioni dai controller virtuali
NitroGen utilizza una pipeline in tre fasi che trasforma le immagini degli overlay in comandi precisi. Prima localizza il controller usando circa 300 template diversi. NitroGen campiona 25 fotogrammi per video; quindi confronta le caratteristiche tra frame e template e stima una trasformazione affine quando almeno 20 corrispondenze sono affidabili.
Questa fase produce un ritaglio della regione del controller per tutti i fotogrammi. Successivamente un modello SegFormer ibrido analizza i ritagli; prende due frame consecutivi concatenati e genera le posizioni degli stick analogici su una griglia 11×11 più gli stati binari dei pulsanti. L’addestramento avviene su 8 milioni di immagini sintetiche con variazioni di opacità, dimensioni e compressione.
Architettura del modello e addestramento su larga scala
Il modello si basa su un’architettura chiamata GR00T N1, pensata per agenti che devono agire in ambienti virtuali. La struttura è semplificata, prende immagini del gioco e produce comandi per il controller; il tutto senza bisogno di processare testo o dati complessi. Ogni fotogramma viene ridotto a 256×256 pixel e analizzato da un componente chiamato SigLIP-2; questo trasforma l’immagine in 256 elementi comprensibili per la macchina. Un secondo componente genera sequenze di 16 azioni consecutive; durante l’apprendimento sistema gradualmente previsioni inizialmente imprecise fino a ottenere comandi coerenti.
Il modello finale contiene 493 milioni di parametri; prevede contemporaneamente lo stato di 17 pulsanti e la posizione di 2 stick analogici per i prossimi 16 istanti. L’addestramento si basa esclusivamente sull’imitazione di ciò che fanno i giocatori nei video, senza sistemi di premi o punizioni; per rendere il modello robusto vengono applicate variazioni casuali alle immagini come cambi di luminosità, colori alterati, piccole rotazioni e ritagli diversi.
Un simulatore universale per testare giochi diversi
NitroGen include un simulatore universale che gli permette di giocare a qualsiasi gioco Windows attraverso un’interfaccia standardizzata. Il sistema intercetta l’orologio interno che il gioco usa per calcolare movimenti e fisica; permette di avanzare fotogramma per fotogramma in modo controllato. Il modello osserva singole immagini del gioco; i comandi seguono uno schema unificato con 16 tasti digitali del gamepad (direzionale, pulsanti frontali, grilletti, pressione degli stick, start e back) più 4 valori continui per le posizioni dei due stick analogici.
Questa standardizzazione consente di usare lo stesso cervello artificiale su giochi completamente diversi tra loro. L’ambiente di test copre 10 titoli commerciali e 30 compiti; 5 giochi bidimensionali (tre a scorrimento laterale e due con visuale dall’alto) e 5 tridimensionali (due a mondo aperto, due action RPG focalizzati sul combattimento e uno sportivo). I compiti includono 11 sfide di combattimento, 10 di esplorazione e 9 obiettivi specifici per ogni gioco.
NitroGen e prestazioni su nuovi giochi
Dopo il pre-training completo NitroGen raggiunge tassi di completamento dei task sorprendentemente alti in valutazione zero-shot; cioè senza ulteriore fine-tuning specifico per gioco. Le percentuali medie variano dal 45% al 60% su combat, navigazione e task specifici, sia in 2D che in 3D. Per verificare quanto il modello funzioni su giochi nuovi, il team esclude un titolo dall’addestramento iniziale; poi lo allena specificatamente su quel gioco usando sempre la stessa quantità di dati e risorse.


Su un gioco roguelike con visuale dall’alto partire da NitroGen garantisce risultati migliori del 10% rispetto a iniziare da zero; su un gioco d’azione tridimensionale il vantaggio medio arriva al 25%, mentre in alcuni combattimenti con pochi dati disponibili (30 ore) il miglioramento raggiunge il 52%. Questi numeri dimostrano che addestrare prima il modello su molti giochi diversi facilita poi l’apprendimento su titoli specifici, rendendo più accessibile lo sviluppo di agenti per nuovi videogiochi. NVIDIA ha reso pubblici il dataset, gli strumenti di valutazione e il modello stesso per supportare la ricerca sugli agenti generalist.
NitroGen : punto di partenza per gli agenti AI nei videogiochi
NitroGen rappresenta un cambio di approccio nello sviluppo di agenti per videogiochi. Invece di richiedere costose sessioni di raccolta dati o accesso privilegiato al codice dei giochi, sfrutta contenuti già disponibili pubblicamente su internet, abbattendo drasticamente i costi e i tempi necessari.
Il modello potrà essere utilizzato come base di partenza per creare assistenti virtuali nei giochi, sistemi di test automatizzati per gli sviluppatori, o agenti dimostrativi che aiutino i giocatori a superare sezioni difficili. L’aspetto più rilevante è la capacità di trasferire competenze tra titoli diversi: un singolo addestramento su larga scala produce un modello che si adatta rapidamente a nuovi giochi con meno dati specifici.
Rendendo pubblici documentazione, dataset, codice e pesi del modello, NVIDIA permette a ricercatori e sviluppatori di costruire soluzioni personalizzate senza ripartire da zero.










