Con l’evoluzione della domanda di chip acceleratori di intelligenza artificiale, i produttori prevedono di introdurre nuovi prodotti HBM3e nel 2024, e si prevede che l’HBM3 e l’HBM3e diventeranno mainstream sul mercato l’anno prossimo.
In questi ultimi mesi la richiesta da parte dei datacenter per chip acceleratori di intelligenza artificiale è incrementato notevolmente. Secondo TrendForce, il prodotto dominante per il mercato della memoria ad alta larghezza di banda (HBM – High Bandwidth Memory) nel 2023 è l’HBM2e, utilizzato dai chip NVIDIA A100/A800, AMD MI200 e dalla maggior parte dei fornitori di servizi cloud (CSP) che sviluppano internamente i loro chip acceleratori di intelligenza artificiale.
HBM2e è l’acronimo di High Bandwidth Memory 2e, una memoria RAM ad alta velocità utilizzata nelle schede grafiche e soprattutto applicazioni IA che richiedono elevate prestazioni e soprattutto una impressionante larghezza di banda della memoria. HBM2e è l’ultima versione dello standard HBM (High Bandwidth Memory) sviluppato da JEDEC.
Caratteristiche della RAM HBM2e
- Velocità di clock fino a 3.6 Gbps per pin, il doppio rispetto a HBM2. Offre una larghezza di banda fino a 460 GB/s per stack di 8 chip HBM2e.
- Utilizza un’interfaccia memoria a larghezza di banda elevata basata su microbump e TSV (Through-Silicon Via) per collegare verticalmente più chip DRAM.
- Supporta fino a 24 canali per chip con una larghezza di banda totale teorica di 1.2 TB/s.
- Basso voltaggio di alimentazione (1.1 V – 1.2 V) per un minor consumo energetico.
- Larghezza bus dati di 1024 bit.
- Utilizzato principalmente nelle schede grafiche di fascia alta, supercomputer, intelligenza artificiale e applicazioni HPC che richiedono prestazioni estreme.
- Principali produttori sono Samsung, SK Hynix e Micron.
Forse ti stai chiedendo come si compara la RAM HBM2 con la RAM più veloce per computer Desktop DDR5. La caratteristica chiave che distingue HBM2e rispetto a DDR5 è la sua enorme larghezza di banda. L’ampiezza di bus molto elevata di HBM2e, fino a 1024 bit contro i 64 bit massimi della DDR5, permette di raggiungere una banda passante fuori scala, fino a 1.2 TB/s teorici contro i 136 GB/s della migliore DDR5. La larghezza di banda è il parametro critico in applicazioni come il calcolo ad alte prestazioni, l’intelligenza artificiale, il processing grafico che necessitano di spostare enormi quantità di dati velocemente dentro e fuori la memoria. HBM2e sacrifica capacità e modularità per ottenere questa elevatissima banda passante.
Il futuro sarà HBM3e
Le differenze tra le generazioni di HBM risiedono principalmente nella loro velocità. L’industria ha avuto una proliferazione di nomi confusi durante il passaggio alla generazione HBM3. TrendForce chiarisce che l’HBM3 attualmente presente sul mercato dovrebbe essere suddiviso in due categorie in base alla velocità. Una categoria include l’HBM3 che funziona a velocità comprese tra 5,6 e 6,4 Gbps, mentre l’altra presenta l’HBM3e da 8 Gbps, che viene anche denominato HBM3P, HBM3A, HBM3+ e HBM3 Gen2.
Lo stato di sviluppo dell’HBM da parte dei tre principali produttori, SK hynix, Samsung e Micron, varia. SK hynix e Samsung hanno iniziato i loro sforzi con l’HBM3, che è utilizzato nei prodotti NVIDIA H100/H800 e AMD MI300. Questi due produttori prevedono anche di campionare l’HBM3e nel primo trimestre del 2024. Nel frattempo, Micron ha scelto di saltare l’HBM3 e sviluppare direttamente l’HBM3e.
L’HBM3e sarà impilato con dies mono da 24 Gb e con la fondazione a 8 strati (8Hi), la capacità di un singolo HBM3e aumenterà a 24 GB. Questo è previsto essere utilizzato nel chip NVIDIA GB100, che sarà lanciato nel 2025. Pertanto, ci si aspetta che i principali produttori rilascino campioni di HBM3e nel primo trimestre del 2024 e mirino a produrli in massa entro il secondo semestre del 2024.
I nuovi chip acceleratori di intelligenza artificiale potenzieranno la memoria ad alta larghezza di banda.
RAM HBM3e e la sfida dei CSP per abbattere i costi
Nel frattempo i CSP ( Cloud Service Provider”, cioè i fornitori di servizi cloud come Amazon AWS, Google Cloud Platform e altri) stanno sviluppando i propri chip di intelligenza artificiale per ridurre la dipendenza da NVIDIA e AMD.
NVIDIA continua a detenere la quota di mercato più elevata per quanto riguarda i chip acceleratori di server per intelligenza artificiale. Tuttavia, i costi elevati associati alle GPU H100/H800 di NVIDIA, che sono prezzate tra 20.000 e 25.000 dollari per unità, uniti alla configurazione consigliata con otto schede per un server di intelligenza artificiale, hanno aumentato drasticamente il costo totale di proprietà. Pertanto, mentre i CSP continueranno a ottenere le GPU per server da NVIDIA o AMD, stanno contemporaneamente pianificando di sviluppare i propri chip acceleratori di intelligenza artificiale.
Giganti tecnologici come Google e Amazon Web Services (AWS) hanno già fatto notevoli progressi in questo settore con la creazione del Google Tensor Processing Unit (TPU) e dei chip AWS Trainium e Inferentia. Inoltre, queste due aziende leader del settore stanno già lavorando duramente sui loro chip acceleratori di intelligenza artificiale di prossima generazione, che utilizzeranno la tecnologia HBM3 o HBM3e.
Altri CSP in Nord America e in Cina stanno conducendo verifiche correlate, segnalando un potenziale aumento della concorrenza nel mercato dei chip acceleratori di intelligenza artificiale nei prossimi anni.