Google ha annunciato oggi il rilascio di Gemma, due nuovi modelli di linguaggio (LLM) open source e gratuiti, 2 modelli di chat conversazionale (chatbot).
Sviluppato da Google DeepMind e da altri team dell’azienda, questo nuovo LLM ha la base la stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. E’ disponibile in due versioni Gemma 2B e 7B, dove B sta per billion (miliardo), che hanno rispettivamente due miliardi e sette miliardi di parametri. Entrambi i modelli LLM (large language model) sono già disponibili per essere provati su Hugging Face, Kaggle e Google Vertex AI.
Google afferma che il nuovo modello LLM open source offre “le migliori prestazioni della categoria per le sue dimensioni rispetto ad altri modelli aperti” e che “supera modelli significativamente più grandi nei parametri di riferimento chiave“.
Entrambe le dimensioni del modello saranno disponibili con una licenza commerciale (per esempio in ambito IoT) indipendentemente dalle dimensioni dell’organizzazione, dal numero di utenti e dal tipo di progetto. In ogni caso Google ammette solo usi leciti della sua LLM open source.
Gemma: prestazioni
Se comparato con modelli LLM di dimensioni simili, Gemma 7B sembra essere un modello potente, con prestazioni paragonabili a Mistral 7B. La versione 2B invece se paragonata con altri modelli da 2 miliardi di parametri, non raggiunge punteggi molto molto elevati.
Il modello Gemma 7B dimostra una performance particolarmente forte sui benchmark di matematica e coding. Sui compiti di matematica, utilizzati per valutare le capacità analitiche generali dei modelli, i modelli Gemma superano gli altri modelli di almeno 10 punti sul test GSM8K e sul più difficile benchmark MATH. Allo stesso modo, superano altri modelli open source di almeno 6 punti sul test HumanEval. Gemma 7B supera anche le performance dei modelli LLaMA-2 da 13 miliardi di dati e di Mistral 7B raggiungendo un punteggio medio di 56.4.
Come eseguire Gemma sul tuo computer
Puoi eseguire il LLM di Google localmente su laptop e desktop, su dispositivi IoT, dispositivi mobili e cloud. Puoi anche eseguirlo su Google Vertex AI e Google Kubernetes Engine (GKE). Se vuoi eseguirlo su Desktop o laptop puoi utilizzare LM Studio, ollama, GPT4ALL, chatllm, Faraday.
Al momento LM Studio ha già inserito Gemma (2B e7B) tra i suoi modelli disponibili e può essere installato direttamente dalla GUI LM Studio.
Come la maggior parte dei modelli LLM di piccole dimensioni e open source, anche Gemma funziona al meglio per compiti legati alla lingua in inglese. Google non esclude che in futuro possano essere pubblicate LLM della famiglia Gemma anche per altre lingue.
Hardware richiesto per eseguire un LLM in locale
L’uso di LLM locali come Gemma, richiedono un hardware sufficientemente potente e adeguato. La RAM del pc parte da un minimo di 16GB, ma quantità anche notevolmente maggiori (128GB) permettono veloci tempi di risposta e l’uso di LLM di dimensioni maggiori.
Per eseguire Gemma (2B o 7B) sono sufficienti 16 GB di RAM.
La VRAM della GPU dovrebbe essere almeno 8GB. Anche le CPU con capacità IA possono accelerare notevolmente il processo di elaborazione rispetto una CPU senza funzionalità IA.