Cerebras Systems, startup specializzata in hardware per l’intelligenza artificiale, ha lanciato un nuovo servizio di inferenza IA che promette prestazioni nettamente superiori rispetto alle soluzioni basate su GPU di Nvidia. L’azienda afferma che il suo Cerebras Inference è fino a 20 volte più veloce dei servizi cloud basati sulle GPU H100 di Nvidia, attualmente considerate lo standard di riferimento del settore.
Ma cosa si intende esattamente per inferenza IA? Si tratta del processo di esecuzione di un modello di intelligenza artificiale già addestrato su nuovi dati per ottenere previsioni o risultati. È la fase in cui l’IA viene effettivamente utilizzata per svolgere compiti pratici, dopo la fase di addestramento iniziale. Cerebras punta quindi ad entrare in questo cruciale segmento del mercato dell’intelligenza artificiale.
Chip WSE-3 di Cerebras
Il nuovo servizio si basa sull’innovativo chip WSE-3 di Cerebras; un processore massiccio grande quanto un’intera wafer di silicio (che può avere un diametro di circa 30 centimetri!). Secondo l’azienda, il WSE-3 offre prestazioni senza precedenti grazie ai suoi 1,4 trilioni di transistor; oltre 900.000 core di calcolo e 44 GB di memoria on-chip.
Queste specifiche si traducono in velocità di elaborazione impressionanti; fino a 1.800 token al secondo per il modello linguistico Llama 3.1 8B e 450 token al secondo per Llama 3.1 70B. Per fare un confronto, Cerebras afferma che i servizi cloud basati su GPU Nvidia raggiungono al massimo 93 e 50 token al secondo rispettivamente per gli stessi modelli. Puoi testare dal vivo queste velocità di processo usando la chat conversazionale di Cerebras . Per ogni risposta la chat riporta velocità di esecuzione in Token per uno dei due modelli utilizzati; Llama 3.1 8B o Llama 3.1 70B. E da un nostro test , risultano effettivamente corrispondenti a quanto dichiarato.
L’azienda sostiene che questa enorme differenza di prestazioni apre nuove possibilità per applicazioni IA in tempo reale e ad alto volume. Il salto tecnologico viene paragonato all’introduzione della banda larga rispetto alle vecchie connessioni dial-up.
Vantaggi e potenzialità del nuovo servizio di inferenza
Oltre alle prestazioni pure, Cerebras punta a distinguersi anche sul fronte dei costi. Il servizio Cerebras Inference parte da soli 10 centesimi per milione di token elaborati; un prezzo che l’azienda dichiara essere fino a 100 volte più conveniente rispetto alle alternative basate su GPU Nvidia. Questa combinazione di velocità elevata e costi contenuti potrebbe rendere il servizio particolarmente attraente per le aziende che necessitano di eseguire grandi volumi di inferenze IA.
Cerebras ha strutturato l’offerta su tre livelli; un piano gratuito per sperimentare la piattaforma, un piano Developer a pagamento flessibile, e un piano Enterprise per carichi di lavoro sostenuti con modelli personalizzati e accordi di servizio dedicati.
L’azienda sottolinea come le prestazioni del suo sistema siano particolarmente adatte per i cosiddetti workload di “IA agentica”; applicazioni in cui l’intelligenza artificiale deve interagire in modo continuo e dinamico con l’ambiente, richiedendo frequenti inferenze in tempo reale. Questo potrebbe aprire nuovi scenari applicativi finora preclusi dai limiti di velocità dei sistemi tradizionali. Cerebras ha già attirato l’attenzione di importanti realtà come GlaxoSmithKline, Perplexity e DeepLearning.AI, che stanno sperimentando il servizio. L’azienda punta inoltre a collaborazioni con i principali cloud provider (Amazon, Google e altri) e fornitori di servizi IA specializzati.
Un aspetto interessante è la compatibilità dell’API di Cerebras Inference con quella di OpenAI; questo dovrebbe facilitare la migrazione di applicazioni esistenti sulla nuova piattaforma. Un importante vantaggio competitivo, che permetterebbe alle aziende di sfruttare le maggiori prestazioni senza dover riscrivere il proprio codice.
Cerebras ha anche annunciato partnership strategiche con aziende come LangChain, Docker e Weights & Biases per fornire un ecosistema completo di strumenti di sviluppo IA.
Le sfide per Cerebras nel competere con Nvidia
Nonostante le impressionanti prestazioni dichiarate e i prezzi competitivi, Cerebras dovrà affrontare notevoli ostacoli per erodere la posizione dominante di Nvidia nel mercato dell’intelligenza artificiale. Nvidia può contare su un ecosistema software e hardware estremamente maturo e diffuso, frutto di anni di investimenti e ottimizzazioni.
Le GPU Nvidia sono ormai lo standard de facto per il machine learning, supportate da librerie e framework ampiamente utilizzati come CUDA. Questo rappresenta una barriera all’ingresso non indifferente per nuovi attori come Cerebras. Molte aziende hanno già investito pesantemente in infrastrutture basate su GPU Nvidia, e potrebbero essere riluttanti a migrare verso una nuova piattaforma, nonostante i potenziali vantaggi prestazionali.
Per lo stesso motivo la stessa AMD che è molto attiva nel settore GPU per l’IA ha difficoltà a trovare nuovi clienti. AMD ha di recente investito 665 milioni di dollari per acquistare l’azienda Silo.AI al fine di accelerare lo sviluppo di soluzioni software IA allo stesso livello di quelle di Nvidia.
Inoltre, Nvidia continua a innovare a ritmo serrato, con nuove generazioni di GPU sempre più potenti. Il prossimo chip Blackwell promette prestazioni doppie rispetto all’attuale H100, riducendo potenzialmente il vantaggio di Cerebras.
La capacità produttiva e la rete di partner di Nvidia sono poi difficilmente eguagliabili per una startup, per quanto promettente.
Cerebras : conclusioni
Il lancio del servizio Cerebras Inference rappresenta indubbiamente una sfida ambiziosa a Nvidia nel cruciale settore dell’inferenza IA. Le prestazioni dichiarate sono impressionanti e potrebbero effettivamente abilitare nuovi scenari applicativi. Tuttavia, il dominio di Nvidia non si basa solo sulle pure prestazioni, ma su un ecosistema consolidato e su economie di scala difficili da replicare.
Cerebras dovrà dimostrare non solo la superiorità tecnologica, ma anche l’affidabilità e la scalabilità della sua soluzione nel lungo periodo. La vera partita si giocherà probabilmente su nicchie di mercato specifiche, dove le prestazioni estreme offerte da Cerebras possono fare davvero la differenza.
Per il mercato mainstream, Nvidia parte ancora nettamente favorita. In ogni caso, questa competizione non potrà che giovare all’intero settore dell’IA, spingendo l’innovazione e potenzialmente abbassando i costi per le aziende. Il futuro dell’inferenza AI si preannuncia quanto mai interessante e ricco di sviluppi.