AMD colma il gap accumulato da CUDA di Nvidia

AMD ha raggiunto un traguardo importante con ZAYA1-base di Zyphra, il primo modello linguistico Mixture-of-Experts (MoE) addestrato completamente su ecosistema e hardware AMD. La realizzazione di questo modello AI conferma che la piattaforma AMD, composta da GPU Instinct MI300X e schede di rete Pensando Pollara 400, rappresenta oggi un’alternativa concreta e competitiva per l’addestramento di modelli AI di frontiera.

Per competere efficacemente nel mercato dell’intelligenza artificiale, non è sufficiente vendere GPU performanti per inferenza; serve un ecosistema software completo paragonabile a CUDA di NVIDIA, che dal suo lancio nel 2006 ha dominato il settore creando una piattaforma integrata di librerie, compilatori e strumenti di sviluppo. Quando OpenAI rilasciò ChatGPT nel novembre 2022, i modelli GPT sottostanti erano stati addestrati interamente su infrastruttura NVIDIA sfruttando CUDA e le GPU A100; il risultato di anni di ottimizzazioni e maturità dell’ecosistema software NVIDIA.

AMD ha quindi accumulato un ritardo tecnologico significativo proprio su questo fronte infrastrutturale; nonostante le GPU RDNA e CDNA offrissero caratteristiche hardware competitive. Mancava uno stack software robusto necessario per il training distribuito su larga scala; librerie di comunicazione, kernel ottimizzati e framework di alto livello pienamente integrati.

Acquisizioni strategiche e maturità ROCm: AMD recupera quindici anni di vantaggio CUDA Nvidia

AMD non è stata a guardare ed ha investito molto per colmare questo gap; ricordiamo per esempio l’acquisizione di nod.ai (un’azienda specializzata nei sistemi di Intelligenza Artificiale e Machine Learning) e di ZTSytem (fornitore di infrastrutture per il cloud computing e l’intelligenza artificiale).

L’addestramento completo del modello ZAYA1-base dimostra ora che AMD ha finalmente colmato questa distanza; attraverso ROCm, RCCL, HIP e l’integrazione con PyTorch. AMD ha raggiunto quella maturità sistemica che va oltre le specifiche hardware. Il risultato ottenuto da Zyphra conferma che l’infrastruttura è ora sufficientemente solida per supportare carichi di lavoro di frontiera.

Questo traguardo arriva quasi tre anni dopo il debutto pubblico di ChatGPT; periodo durante il quale NVIDIA ha consolidato ulteriormente il dominio grazie a Hopper, NVLink e software stack sempre più raffinati. AMD recupera quindi un gap accumulato in oltre quindici anni di evoluzione CUDA; la dimostrazione pratica con ZAYA1-base indica che la piattaforma MI300X con Pollara e ROCm rappresenta finalmente un’alternativa credibile per chi cerca diversificazione tecnologica senza compromettere prestazioni o stabilità.

AMD e il progetto di Zyphra

Il progetto nasce dalla collaborazione tra Zyphra, AMD e IBM Cloud; combina 128 nodi di calcolo per un totale di 750 PFLOPs di potenza computazionale massima raggiungibile. Il modello ZAYA1-base conta 760 milioni di parametri attivi e 8,3 miliardi totali; ha prestazioni paragonabili a modelli densi come Qwen3-4B nonostante l’architettura più leggera.

L’addestramento è stato documentato sotto ogni aspetto tecnico e fornisce linee guida pratiche per chi intende utilizzare lo stack AMD in produzione; una dimostrazione che ROCm e i relativi strumenti software sono pronti per carichi di lavoro complessi e prolungati.

Tutta la documentazione ufficiale del training Zypra su infrastruttura AMD è disponibile qui.

Architettura Hardware: GPU MI300X e rete Pensando Pollara

Ogni nodo di calcolo del cluster Zyphra integra otto GPU MI300X connesse tramite InfinityFabric, con 2 TB di memoria DDR5 e doppio socket Intel Xeon Platinum 8570. La capacità di memoria HBM delle MI300X, pari a 192 GB per GPU, ha permesso di adottare una strategia semplificata basata principalmente su data-parallelism con l’ottimizzatore distribuito ZeRO-1.

Questa configurazione semplifica il codice e aumenta l’efficienza complessiva. L’architettura di rete utilizza una struttura rails-only con interruttori organizzati su due livelli; un compromesso tra costi di realizzazione e velocità di comunicazione rispetto a soluzioni più elaborate.

Ogni GPU ha una propria scheda di rete Pollara da 400Gbps, che raggiunge complessivamente 3,2 Tbps di capacità per nodo; avere collegamenti dedicati riduce i rallentamenti e facilita il trasferimento diretto dei dati tra le schede grafiche. Il cluster mantiene separate le reti usate per l’addestramento del modello da quelle dedicate alla gestione dei file e dei salvataggi; questo evita che il caricamento dei dati disturbi le comunicazioni essenziali tra le GPU.

Zyphra ha condotto i primi test approfonditi sulle schede Pollara; ha misurato tutte le operazioni di comunicazione fondamentali con diverse quantità di informazioni e numeri di GPU e ottenuto informazioni pratiche per calibrare al meglio i trasferimenti di dati durante l’addestramento.

Ottimizzazioni software: Kernel HIP e Stack ROCm

L’addestramento del modello ZAYA1-base ha richiesto la creazione di componenti software personalizzati scritti in HIP per ottenere velocità competitive. HIP (Heterogeneous-Compute Interface for Portability) è un linguaggio di programmazione e un’interfaccia sviluppata da AMD per scrivere codice che gira su GPU. Funziona in modo simile a CUDA di NVIDIA, ma con una differenza importante; il codice scritto in HIP può essere compilato per funzionare sia su GPU AMD che su GPU NVIDIA. Essenzialmente, HIP permette agli sviluppatori di scrivere kernel (piccoli programmi che vengono eseguiti direttamente sulla GPU per operazioni ad alte prestazioni); in un linguaggio simile al C++.

L’ottimizzatore Muon, che gestisce certi parametri del modello, richiede calcoli molto intensi attraverso un particolare metodo matematico; Zyphra ha realizzato componenti combinati che aggiornano contemporaneamente diverse informazioni, riducendo enormemente l’uso della memoria. Un componente specializzato per moltiplicare matrici simmetriche elimina circa metà dei calcoli necessari e dimezza le scritture in memoria per determinate porzioni; questo rende l’intero processo molto più efficiente in termini di trasferimento dati e riduce sensibilmente il tempo richiesto dall’ottimizzatore.

Per le operazioni di normalizzazione dei layer, il team ha creato un componente unificato che esegue somma, calcolo delle statistiche, normalizzazione e trasformazione in un’unica operazione; supera le prestazioni ottenibili con semplici adattamenti dell’implementazione Transformer Engine di NVIDIA. L’integrazione con gli strumenti dello stack AMD, come Primus, AITER e RCCL, ha completato la piattaforma software; la calibrazione tramite PyTorch TunableOp, TransformerEngine ROCm e HIPBLASLt-bench ha generato tabelle di riferimento che associano le dimensioni delle operazioni matematiche agli algoritmi più veloci disponibili nelle librerie rocBLAS e hipBLASlt.

Tutto questo tradotto in parole per non esperti significa maggiore efficienza, più semplicità e costi ridotti durante l’addestramento di un modello AI.

Architettura ZAYA1: CCA, ZAYA1 router e residual scaling

Il modello ZAYA1-base introduce tre innovazioni architetturali che migliorano l’efficienza dei modelli MoE. La Compressed Convolutional Attention (CCA) riduce drasticamente i requisiti computazionali comprimendo la KV-cache fino a 8x. Il ZAYA1 router sostituisce il gate lineare standard con una MLP compatta che integra Exponential Depth Averaging; promuove la specializzazione degli esperti e consente addestramento stabile con top-k pari a 1 senza esperti residui. Il residual scaling applica bias e coefficienti di gating appresi per controllare il flusso informativo con overhead trascurabile; ottiene gli stessi benefici dello schema di gating attentivo di Qwen a costi inferiori.

Prestazioni di Zaya1

Durante questa fase, l’obiettivo primario di Zyphra non era creare il modello AI più performante in assoluto; lo scopo era dimostrare che è possibile addestrare un modello linguistico altamente competitivo utilizzando interamente l’infrastruttura AMD. Il focus era validare la maturità dell’intero ecosistema hardware e software; dalle GPU MI300X alle schede di rete Pensando Pollara, dallo stack ROCm ai kernel HIP personalizzati. Una prova che questa piattaforma può sostenere carichi di lavoro di training su larga scala con prestazioni paragonabili o superiori a quelle ottenute con l’infrastruttura NVIDIA dominante.

ZAYA1-base rappresenta quindi una proof of concept strategica; il modello raggiunge risultati competitivi superiori a Llama-3-8B e vicini a Qwen3-4B. Le sue prestazioni sono notevoli considerando i suoi solo 760 milioni di parametri attivi. Nei benchmark generali come MMLU (67,01%) e MMLU-Pro (40,43%), il modello supera Llama-3-8B e OLMoE-1b-7b; si avvicina a Qwen3-4B nonostante quest’ultimo abbia oltre quattro volte più parametri attivi.

Nelle valutazioni matematiche avanzate (MATH-hard con 54,15% exact-match) e coding (MBPP+ con 75,40% pass@1), ZAYA1-base eccede persino Gemma3-12b-pt; un modello con molti più parametri totali.

Anche la versione del modello ottimizzata per il ragionamento ha mostrato risultati soddisfacenti nei test avanzati; si avvicina a modelli di punta come Qwen3-4B-Thinking ancora prima delle fasi di perfezionamento successive; sono margini di miglioramento notevoli.

AMD è pronta per il training di modelli di frontiera

L’addestramento completo di ZAYA1-base conferma che l’ecosistema AMD ha raggiunto la maturità necessaria per competere nell’addestramento di modelli linguistici su larga scala.

Le prestazioni competitive di ZAYA1-base, ottenute con un’architettura innovativa che combina CCA, router avanzato e residual scaling, dimostrano che è possibile ottenere risultati all’avanguardia anche su piattaforme alternative a NVIDIA; l’efficienza nell’addestramento a lungo contesto (fino a 32k token) e la forte compressione della KV-cache rendono il modello adatto anche a GPU consumer di fascia bassa e per l’inferenza locale. Zyphra, AMD e IBM Cloud hanno aperto nuove opportunità per il settore AI.

Ultimi Articoli

ZAYA1: il primo modello AI su larga scala addestrato solo su infrastruttura AMD

Acquisizioni strategiche e maturità ROCm: AMD recupera quindici anni di vantaggio CUDA Nvidia

AMD e il progetto di Zyphra

Architettura Hardware: GPU MI300X e rete Pensando Pollara

Ottimizzazioni software: Kernel HIP e Stack ROCm