Meta, la società madre di Facebook, Instagram e WhatsApp, ha rilasciato Llama 3, il suo nuovo modello di linguaggio open source di grandi dimensioni (LLM). Questo modello rappresenta un passo avanti significativo rispetto alle precedenti versioni di Llama ed è diventato il modello di linguaggio più potente e capace disponibile al pubblico (open source) già da ora. Meta sta investendo moltissimo nell’IA e i primi risultati importanti cominciano a farsi notare con Llama 3.
Le dimensioni e la potenza di Llama 3
Llama 3 è disponibile in due varianti principali: una da 8 miliardi di parametri (8B) e una molto più grande da 70 miliardi di parametri (70B). Entrambe le varianti sono pre-addestrate e sono inoltre disponibili versioni “instruct-tuned” ottimizzate per applicazioni di dialogo.
Per ora il modello non è multimodale, quindi è un text to text, anche se sono previste versioni multimodali in grado di gestire immagini, suoni e video. La prossima versione più grande di Llama 3 ne avrà oltre 400 miliardi di parametri, ha affermato Zuckerberg.
Il numero di parametri determinano la complessità di un modello e la sua capacità di apprendere dai dati di addestramento. Maggiore è il numero di parametri è più performante è il modello.
Llama 3 eseguibile in locale
La notizia sorprendente è che secondo i dati dei benchmark il modello da 70B che può essere eseguito su un computer locale già da ora tramite un software come LMStudio , Ollama , GPT4ALL, chatllm, Faraday o altri è superiore a Claude Sonnet e Gemini Pro 1.5, due modelli non open source che vengono eseguiti solo in remoto.
Anche Poe, l’aggregatore di modelli LLM ha già reso disponibile Llama 3 da 70B sul suo aggregatore di modelli LLM.
La versione LM Studio 0.2.20 rilasciata oggi già permette di eseguire sul tuo computer locale Llama 3 8B e Llama 3 70B.
Trovi Llama 3 anche su Hugging Face, il principale hub per l’intelligenza artificiale open source.
Se la versione da 70B è superiore a Claude Sonnet, viene da pensare che il modello da 400B sarà in grado di surclassare sia GPT-4 che Claude Opus. Ecco quali sono i risultati, sorprendenti per un modello open source che puoi eseguire localmente sul tuo pc.
Sebbene il modello 8B sia molto interessante, il modello 70B è quello più sorprendente. Avere un modello 70B eseguibile su computer locale con le capacità simili (leggermente superiori) a Claude Sonnet e Gemini Pro 1.5 non era immaginabile in così breve tempo. Chi ha un computer sufficientemente potente può usare un modello senza sottoscrivere il pagamento di un API remota. Una panacea per gli sviluppatori.
Limitazioni
Tutto oro quel che luccica ? No, ci sono alcune limitazioni. Per esempio, la finestra di contesto è limitata a 8k (circa 8 mila parole), molto piccola se si vogliono far processare dei documenti. Inoltre, come già evidenziato in precedenza, il modello non è multimodale ma solo un text to text; ovvero il modello non è in grado di interpretare immagini, video o audio, ma comunica solo tramite testo.
Sicuramente arriveranno versioni con finestre di contesto più ampie e modelli multimodali. Bisognerà poi vedere se anche queste saranno open source e disponibili a tutti. Comunque, per assistenza coding, chat conversazionale in locale ed altri compiti che non richiedono finestre di contesto molto ampie dovrebbe essere valido. Non rimane altro che testarlo a fondo o attendere valutazioni indipendenti per confermarne la potenza dichiarata.
Altra limitazione è l’hardware richiesto. Sebbene per poter eseguire il modello 8B è sufficiente un PC con 16 di RAM (meglio se con 32 GB di RAM) affiancato da una GPU di fascia medio/alta,
per il modello 70B potrebbero essere necessari 128 GB di RAM o oltre affiancati da una GeForce RTX 4090 24 GB. Un processore con NPU integrata potrebbe velocizzare il tutto. Un eventuale modello 400B rilasciato pubblicamente, richiederebbe invece un computer con minimo 192GB di RAM (molti di più per eseguire tutto velocemente). Andremo verso un futuro con computer con 1TB di RAM ?
Nuove funzionalità e miglioramenti
Un grande cambiamento in Llama 3 rispetto a Llama 2 è l’uso di un nuovo tokenizzatore che espande la dimensione del vocabolario a 128.256 (dai 32K token della versione precedente). Questo vocabolario più ampio può codificare il testo in modo più efficiente (sia per l’input che per l’output) e potenzialmente produrre un multilinguismo più forte.
Ciò ha però un costo: le matrici di input e output incorporate sono più grandi, il che spiega una buona parte dell’aumento del conteggio dei parametri del modello piccolo: va da 7B in Llama 2 a 8B in Llama 3. Inoltre, la versione 8B del modello ora utilizza Grouped-Query Attention (GQA), una rappresentazione efficiente che dovrebbe aiutare con contesti più lunghi.
I modelli Llama 3 sono stati addestrati su circa 15 trilioni di token provenienti da un mix di dati online pubblicamente disponibili, circa 8 volte di più rispetto alla versione precedente Llama 2. La cura dei dati di addestramento sembra essere stata un fattore chiave per i miglioramenti delle prestazioni.
Licenza e condizioni d’uso
Per quanto riguarda i termini di licenza, Llama 3 viene fornito con una licenza permissiva che consente la ridistribuzione, il fine-tuning e la creazione di opere derivate. La novità di questa licenza rispetto alla precedente è il requisito di attribuzione esplicita nel caso di modelli o servizi derivati.
I modelli derivati, ad esempio, devono includere “Llama 3” all’inizio del nome e devi anche menzionare “Built with Meta Llama 3” in opere o servizi derivati. Se hai bisogno di maggiori informazioni leggi la licenza ufficiale .
Integrazione in Meta AI
Meta AI è l’assistente IA di Meta ed è già potenziato da Llama 3. Meta AI è disponibile su Facebook, Instagram, WhatsApp e Messenger anche se limitato solo ad alcune nazioni. Per esempio la versione browser di Meta AI può essere provata solo usando una VPN (per esempio una VPN degli Stati Uniti) e con un account Facebook.
Per ora Meta AI in sola lingua inglese è disponibile in Australia, Canada, Ghana, Giamaica, Malawi, Nuova Zelanda, Nigeria, Pakistan, Singapore, Sud Africa, Uganda, Zambia e Zimbabwe.
Llama 3: conclusione
Il rilascio di Llama 3 da parte di Meta rappresenta un passo importante nell’evoluzione dei modelli di linguaggio di grandi dimensioni open source. Con le sue dimensioni e capacità avanzate ma da verificare, Llama 3 potrebbe rivelarsi un’alternativa valida e economicamente più accessibile rispetto ai modelli chiusi e proprietari delle big tech.
Nel frattempo rimane l’attesa per il modello Llama 3 da 400B (400 miliardi di parametri) ancora in fase di addestramento che quando disponibile potrebbe far preoccupare OpenAI e Anthropic.
Meta non ha ancora deciso se renderà open source la versione da 400 miliardi di parametri di Llama 3 poiché è ancora in fase di addestramento. “A questo punto, il nostro obiettivo non è competere con i modelli open source“, ha affermato Zuckerberg. “Si tratta di competere con tutti gli altri ed essere l’intelligenza artificiale leader nel mondo.“
Quindi queste versioni open source possiamo vederle come prove tecniche prima del lancio di versioni successive estremamente potenti. Zuckerberg ha affermato di avere già in programma Llama 4 e 5.
Un’altra considerazione riguarda l’impatto ambientale dell’addestramento di modelli di queste dimensioni. Sebbene Meta non abbia fornito dettagli specifici, l’addestramento di reti neurali così vaste richiede enormi quantità di energia e risorse computazionali.