NVIDIA ha presentato Nemotron 3 Super, il nuovo modello open source della serie Nemotron, pensato esplicitamente per applicazioni di AI agentiva multi-step in contesti enterprise. Si tratta del successore diretto di Nemotron Super, rispetto al quale offre oltre 5x di throughput, e si affianca a Nemotron 3 Nano, rilasciato a dicembre. Nano gestisce i compiti semplici e ripetitivi, quelli che richiedono una risposta rapida e diretta. Super, invece, entra in gioco quando l’agente deve ragionare su problemi complessi, fare scelte tra più opzioni e coordinare più passi in sequenza.
Con questo modello NVIDIA, invece di competere frontalmente con i modelli proprietari di OpenAI, Anthropic e Google sul piano della capacità bruta, punta a riempire un vuoto preciso nel mercato open source statunitense, sempre più dominato da modelli cinesi come Qwen di Alibaba e DeepSeek.
Il modello ha 120 miliardi di parametri totali, ma ne attiva solo 12 miliardi per inferenza grazie all’architettura Mixture of Experts, il che lo rende economicamente praticabile in produzione continua. È rivolto a sviluppatori e aziende che devono costruire agenti autonomi per software engineering, cybersecurity, life sciences e IT service management, e che cercano controllo totale su dati e infrastruttura senza dipendere da API proprietarie.
Un’architettura ibrida pensata per non sprecare un token
Il cuore tecnico di Nemotron 3 Super è un’architettura ibrida che combina tre componenti con compiti ben distinti, ognuno pensato per risolvere un problema specifico.
Il primo componente, i layer Mamba-2, si occupa di elaborare testi molto lunghi senza che i costi computazionali crescano in modo sproporzionato. I modelli tradizionali basati su Transformer diventano progressivamente più lenti e costosi man mano che il contesto si allunga, perché devono confrontare ogni parola con tutte le altre. Mamba-2 risolve questo problema mantenendo i costi lineari rispetto alla lunghezza del testo, ed è proprio questo che rende praticabile la finestra di contesto da 1 milione di token.
I layer Transformer non scompaiono però del tutto: vengono inseriti in punti strategici dell’architettura per gestire i momenti in cui il modello deve recuperare un’informazione precisa sepolta in un testo lungo. È qualcosa che i soli layer Mamba faticano a fare bene da soli.
Il terzo componente è il Latent MoE, cioè un sistema di routing che smista ogni pezzo di testo verso un sottoinsieme di “esperti” interni al modello, invece di farli lavorare tutti ogni volta. Il meccanismo latente comprime il testo prima di fare questa scelta, permettendo di consultare 4 volte più esperti rispetto a un sistema tradizionale, senza aumentare i costi di calcolo.
Infine, la Multi-Token Prediction permette al modello di anticipare più token contemporaneamente invece di uno alla volta, abilitando una generazione del testo fino a 3 volte più veloce per task strutturati come la scrittura di codice.
Benchmark solidi tra i modelli open source
Sul piano delle prestazioni misurate, Nemotron 3 Super si colloca in cima alla classifica dei modelli open. Il riferimento principale è PinchBench, un benchmark progettato per valutare i LLM (large language models) nel ruolo di “cervello” di un agente OpenClaw: il modello ottiene l’85,6% sull’intera test suite, il punteggio più alto tra i modelli open equivalenti.
Le metriche di throughput confermano il vantaggio architetturale, con il backbone ibrido Mamba-Transformer che garantisce 4x di efficienza su memoria e calcolo rispetto ai transformer densi tradizionali, mentre la MTP abilita speedup fino a 3x sui tempi di generazione per task strutturati come codice e tool call.

Sul benchmark Finance Reasoning Hard, DataRobot ha misurato un dato interessante sul thinking budget configurabile. Alla massima impostazione il modello raggiunge circa l’86% di accuratezza consumando oltre 1,4 milioni di token in output. All’impostazione minima scende a circa il 74% su circa 100.000 token, ovvero una riduzione di 14x nel costo token a fronte di una perdita di accuratezza gestibile per task di classificazione o routing.
Sul fronte competitivo, il confronto più diretto è con i modelli cinesi. Con Meta che ha rallentato lo sviluppo di Llama, NVIDIA si sta affermando come il principale attore open source statunitense nell’AI, investendo miliardi nell’ecosistema.
Il modello funziona in modo ottimale su infrastruttura NVIDIA, è pre-addestrato per workflow NVIDIA, e i benchmark vengono misurati prevalentemente su hardware NVIDIA. I numeri dei benchmark sono un segnale positivo, ma il verdetto definitivo arriverà dai deployment indipendenti.
Disponibilità del modello Nemotron 3 Super
Nemotron 3 Super è distribuito con pesi, dataset e ricette di training completamente aperti, accessibili su Hugging Face e tramite NVIDIA NIM. La NVIDIA Nemotron Open Model License permette alle aziende di mantenere il controllo dei dati e fare deploy ovunque, tra cloud ibrido, on-premises e ambienti air-gapped.
In termini di piattaforme, il modello è già disponibile su Baseten, Cloudflare, CoreWeave, DeepInfra, Fireworks AI, FriendliAI, Google Cloud, Lightning AI, Modal, Nebius e Together AI. Non esiste un prezzo di licenza: il costo effettivo dipende dall’infrastruttura GPU scelta per il deployment.
Le API del modello sono per ora completamente gratuite e possono essere utilizzate per esempio con gestori terzi come Openrouter.
Nemotron 3 Super: un campione open source statunitense
Nemotron 3 Super è un modello tecnicamente solido, con scelte architetturali coerenti e motivate da problemi reali che frenano gli agenti AI in produzione continua.
Rendere pubblici i dataset e le metodologie di addestramento è una mossa coraggiosa che sfida il dominio di modelli “chiusi” o parzialmente aperti. L’uso di un’architettura ibrida Mamba-Transformer mostra la volontà di superare i limiti di scalabilità del contesto tipici dei Transformer puri. Tuttavia, resta la barriera hardware: per far girare questo modello a pieno potenziale servono configurazioni multi-GPU o hardware di ultimissima generazione, il che limita l’entusiasmo degli utenti amatoriali con dotazioni standard.
Prima di adottarlo in produzione, verifica i requisiti GPU reali nel tuo caso d’uso specifico, testa le latenze sotto carico effettivo con i tuoi tool call, e considera che l’ottimizzazione massima si ottiene su hardware Blackwell. I cookbooks rilasciati da NVIDIA per vLLM, SGLang e TensorRT-LLM abbassano la barriera d’ingresso in modo quasi immediato. Il potenziale e la validazione definitiva saranno dati dal campo. È comunque un segnale forte: NVIDIA non vuole essere solo il fornitore hardware dell’IA, ma anche il leader del software aperto e trasparente.











