Ceva, leader nel settore delle soluzioni di elaborazione e intelligenza artificiale, ha annunciato un significativo progresso nella sua famiglia di IP core NeuPro-M NPU, rendendoli compatibili con i framework di trasformatori sparsi per l’intelligenza artificiale generativa.
I framework di trasformatori sparsi per l’IA generativa
Per comprendere il concetto di “framework di trasformatori sparsi per l’IA generativa“, è necessario suddividerlo in più parti:
I trasformatori sono un tipo di architettura di rete neurale artificiale che ha dimostrato un grande successo in molte applicazioni di elaborazione del linguaggio naturale e dell’Intelligenza Artificiale in generale. Questa architettura è stata introdotta nel 2017. I trasformatori sfruttano il meccanismo di attenzione per catturare relazioni tra le diverse parti di un input, consentendo di catturare contesti più ampi e migliorare le prestazioni in molte attività linguistiche.
La sparsità si riferisce al concetto di avere dati o pesi “sparsi”, cioè una percentuale significativa di valori che sono zero. Questo è particolarmente rilevante in quanto riduce la quantità di dati o calcoli necessari, portando a un risparmio di risorse computazionali e di memoria.
L’intelligenza artificiale generativa si riferisce a modelli o algoritmi in grado di generare nuovi dati, spesso in base a input iniziali. Esempi di IA generativa includono reti generative avversariali (GAN) e modelli di linguaggio generativi, come i “Large Language Models” (LLM).
Infine, il framework è un insieme di strumenti, librerie e risorse che semplificano lo sviluppo di applicazioni o modelli. Nei contesti di Machine Learning e IA, un framework è un ambiente in cui è possibile costruire, addestrare e valutare i modelli.
In conclusione, i framework di trasformatori sparsi per l’IA generativa consentono di creare modelli più efficienti e veloci che possono generare nuovi contenuti in modo più rapido e con meno risorse.
Un IP core (Intellectual Property core), invece, è un componente pre-progettato che può essere integrato nei chip elettronici per fornire funzionalità specifiche senza dover sviluppare tale funzionalità da zero. L’obiettivo di un IP core è quello di accelerare lo sviluppo e ridurre i costi di progettazione di dispositivi complessi.
Mentre NeuPro-M NPU (Neural Processing Unit – NeuPro Multimodal) è una famiglia di blocchi di elaborazione progettati per svolgere operazioni di intelligenza artificiale, in particolare per reti neurali profonde e trasformatori, che sono architetture di rete neurale ampiamente utilizzate.
IP core NeuPro-M NPU riprogettati da Ceva
L’architettura e gli strumenti NeuPro-M NPU sono stati completamente ridisegnati per supportare reti di trasformatori destinati all’Intelligenza Artificiale generativa, oltre alle CNN e ad altre reti neurali. Inoltre, i nuovi IP core sono in grado di adattarsi ai futuri modelli di inferenza di apprendimento automatico. Questa evoluzione apre le porte a applicazioni altamente ottimizzate che utilizzano sia i trasformatori che l’intelligenza artificiale classica, eseguite sui IP core NeuPro-M NPU presenti all’interno di porte di comunicazione, reti collegate in modalità ottica, automobili, notebook, tablet, visori AR/VR, smartphone e in qualsiasi altro caso di utilizzo cloud o edge.
I miglioramenti introdotti nell’architettura NeuPro-M sfruttano l’unità di elaborazione vettoriale (VPU) integrata per supportare strati di reti future con qualsiasi attivazione e qualsiasi flusso di dati, offrendo una vera sparsità per i dati e i pesi, che consente un’accelerazione delle prestazioni fino a 4 volte. Questo consente ai clienti di affrontare più applicazioni e più mercati con una singola famiglia di NPU.
Per garantire una maggiore scalabilità richiesta dai diversi mercati dell’IA, il NeuPro-M introduce i nuovi core NPU NPM12 e NPM14, con due e quattro motori NeuPro-M ciascuno. Questi consentono l’elaborazione di nuovi carichi di lavoro di Intelligenza Artificiale con la famiglia NeuPro-M avanzata, che ora include quattro NPUs: NPM11, NPM12, NPM14 e NPM18, con una performance di picco di 350 TOPS/Watt su un nodo di processo a 3 nm, capaci di elaborare oltre 1,5 milioni di token al secondo per watt per inferenze basate su trasformatori LLM (Large Language Models).
Altri miglioramenti introdotti nella famiglia IP core NeuPro-M NPU
Insieme all’architettura migliorata IP core NeuPro-M NPU , è stata rinnovata l’ampia gamma di strumenti di sviluppo, basati sul pluripremiato compilatore di rete neurale AI di CEVA, il CDNN. Questo software è progettato per sfruttare al massimo le unità di elaborazione parallela NeuPro-M e massimizzare le prestazioni delle applicazioni AI dei clienti. Il software CDNN include un gestore di memoria per ridurre la larghezza di banda della memoria e algoritmi di bilanciamento del carico ottimali, ed è compatibile con framework open-source comuni, tra cui TVM e ONNX.
“Le reti basate su trasformatori che guidano l’AI generativa richiedono un enorme aumento di risorse di calcolo e memoria, il che richiede nuovi approcci e architetture di elaborazione ottimizzate per soddisfare questa spinta alla domanda di calcolo e memoria“, ha dichiarato Ran Snir, Vice Presidente e General Manager della Vision Business Unit di Ceva.
“La nostra IP core NeuPro-M NPU è progettata appositamente per gestire carichi di lavoro sia di AI classica che generativa in modo efficiente ed economico, oggi e in futuro. È scalabile per affrontare casi d’uso dall’edge al cloud ed è progettata per supportare nuovi modelli di inferenza. Il salto in avanti delle prestazioni che abbiamo ottenuto con questa architettura porta la promessa incredibile dell’IA generativa in qualsiasi caso d’uso, dai dispositivi edge sensibili ai costi fino al cloud computing altamente efficiente e tutto ciò che sta nel mezzo.“
Prevista la crescita della richiesta del mercato entro il 2028
Secondo le previsioni di ABI Research, le spedizioni di Edge AI passeranno da 2,4 miliardi di unità nel 2023 a 6,5 miliardi di unità nel 2028, con un tasso di crescita annuale medio (CAGR) del 22,4%. Ceva afferma che l’IA generativa avrà un ruolo fondamentale in questa crescita e che le applicazioni edge sempre più sofisticate e intelligenti stanno spingendo la necessità di tecniche di inferenza AI più potenti ed efficienti.
In particolare, i grandi modelli di linguaggio (LLM) e i trasformatori per la visione e l’audio utilizzati nell’IA generativa possono trasformare prodotti e settori, ma introducono nuovi livelli di sfide in termini di prestazioni, potenza, costo, latenza e memoria quando eseguiti su dispositivi edge.
“Il mercato dell’hardware per l’IA generativa è attualmente fortemente concentrato, con il dominio di pochi fornitori“, ha dichiarato Reece Hayden, Senior Analyst di ABI Research.
“Per realizzare la promessa di questa tecnologia, è necessario un chiaro percorso verso l’elaborazione dell’inferenza a basso consumo energetico e a basso costo, sia nel cloud che all’edge. Questo si otterrà con dimensioni di modello più ridotte e hardware più efficiente per l’esecuzione. L’IP NeuPro-M NPU di CEVA offre una proposta convincente per implementare l’IA generativa su dispositivi, con un notevole budget energetico, mentre la sua scalabilità consente anche a NeuPro-M di affrontare casi d’uso più intensivi in termini di prestazioni nell’equipaggiamento di rete e oltre.“
L’IP NPU NPM11 è già disponibile per la distribuzione ai clienti, mentre NPM12, NPM14 e NPM18 sono disponibili solo per i clienti principali.