Il nuovo supercomputer xAI Colossus rappresenta un traguardo senza precedenti nel campo del calcolo ad alte prestazioni. Realizzato in collaborazione con NVIDIA in soli 122 giorni, questo mostro tecnologico integra 100.000 GPU NVIDIA Hopper. La costruzione è avvenuta a Memphis, Tennessee.
xAI Colossus si distingue per l’implementazione della piattaforma di rete NVIDIA Spectrum-X Ethernet. Questa soluzione garantisce prestazioni superiori per fabbriche AI multi-tenant su larga scala. La tecnologia sfrutta l’Ethernet standard per le operazioni RDMA (Remote Direct Memory Access).
Il supercomputer sta già addestrando la famiglia di modelli linguistici Grok, disponibili per gli abbonati X Premium. Grok 3 dovrebbe essere pronto entro fine dicembre. Tuttavia, xAI ha pianificato il raddoppio della capacità di Colossus. L’espansione prevede l’aggiunta di ulteriori 100.000 GPU, portando il totale a 200.000 unità di elaborazione.
Architettura e specifiche tecniche di xAI Colossus
L’architettura di Colossus si basa su server GPU NVIDIA HGX H100. Come riportato in un video da ServeTheHome, ogni unità contiene otto GPU H100 in configurazione liquido-raffreddata. I server sono raggruppati in rack da otto unità ciascuno. Questo permette di concentrare 64 GPU per rack. Il sistema di raffreddamento prevede manifold 1U tra i server.
Alla base di ogni rack si trova un’unità Supermicro 4U con sistema di pompaggio ridondante. I rack sono organizzati in gruppi da otto, formando array da 512 GPU. L’alimentazione utilizza sistemi ridondanti con quattro alimentatori per server. La connettività di rete rappresenta un elemento cruciale.
Ogni GPU dispone di un controller di rete dedicato da 400GbE. Un NIC aggiuntivo da 400Gb serve ogni server. La larghezza di banda totale raggiunge 3,6 Terabit al secondo per server HGX H100. L’infrastruttura comprende anche server di storage e calcolo CPU in chassis Supermicro 1U. Il sistema sfrutta unità NVMe e processori x86. L’alimentazione si avvale di batterie Tesla Megapack come buffer energetico tra la rete elettrica e il supercomputer.
Prestazioni e innovazioni tecnologiche
Le prestazioni di Colossus stabiliscono nuovi standard nel settore. Durante l’addestramento del modello Grok, il sistema mantiene prestazioni di rete eccezionali. Non si registra alcuna degradazione della latenza applicativa o perdita di pacchetti dovuta a collisioni di flusso. Il throughput dei dati si attesta al 95% grazie al controllo della congestione Spectrum-X.
Questi risultati superano nettamente le prestazioni dell’Ethernet standard. Le tecnologie tradizionali generano migliaia di collisioni di flusso e limitano il throughput al 60%. Lo switch Spectrum SN5600 costituisce il cuore della piattaforma Spectrum-X. Supporta velocità fino a 800 Gb/s per porta grazie al chip Spectrum-4.
xAI ha scelto di abbinare questi switch ai SuperNIC NVIDIA BlueField-3. La combinazione garantisce prestazioni senza precedenti. La piattaforma introduce funzionalità avanzate come il routing adattivo con tecnologia Direct Data Placement NVIDIA. Il sistema implementa controllo della congestione e visibilità avanzata del fabric AI.
xAI Colossus: conclusioni
La collaborazione tra xAI e NVIDIA ha prodotto risultati straordinari in tempi record. L’architettura innovativa e le prestazioni eccezionali offrono nuove possibilità per l’addestramento di modelli IA su larga scala. La scelta di utilizzare tecnologie Ethernet standard ottimizzate dimostra la maturità raggiunta dal settore. La scalabilità pianificata a 200.000 GPU, invece, testimonia l’ambizione del progetto.
L’integrazione di soluzioni avanzate per raffreddamento e alimentazione garantisce efficienza e affidabilità. La visione di Elon Musk e xAI si concretizza in un sistema all’avanguardia e le potenzialità di Colossus potrebbero accelerare notevolmente lo sviluppo dell’IA nei prossimi anni.