Sabato scorso Meta ha ufficialmente svelato la nuova famiglia di modelli Llama 4; tra questi spiccano due varianti principali già disponibili: Llama 4 Scout e Llama 4 Maverick. Si tratta di modelli linguistici avanzati (LLM), progettati per integrare l’architettura Mixture of Experts (MoE) usata anche da DeepSeek R1; tale approccio consente una gestione ottimizzata dei parametri durante l’elaborazione. Entrambi sono nativamente multimodali; accettano quindi testo e immagini in ingresso, permettendo una gamma più ampia di applicazioni pratiche.

Questi modelli, grazie a una finestra di contesto fino a 10 milioni di token, si distinguono per una capacità estesa di memoria e comprensione; una caratteristica utile nei processi di analisi, sintesi o generazione avanzata di contenuti. Una finestra di token molto più ampia di ogni competitor, che permette di analizzare documenti molto ampi. In termini di performance, i modelli Llama 4 superano diverse soluzioni esistenti come GPT-4o e Gemini 2.0 Flash.
Meta ha scelto di rendere disponibili questi modelli in modalità open-weight; questa decisione mira ad abbattere le barriere d’accesso alla tecnologia AI avanzata. Ciò consente a sviluppatori, aziende e comunità di sperimentare, integrare e migliorare gli strumenti secondo le proprie esigenze.
Llama 4 : disponibilità e accesso ai modelli
Llama 4 Scout e Maverick sono già disponibili per il download gratuito; si trovano sulle piattaforme Hugging Face e llama.com. L’accesso non è limitato a ricercatori o grandi imprese; chiunque abbia le competenze tecniche adeguate può testarli. Meta ha integrato questi modelli anche all’interno dei suoi servizi principali: WhatsApp, Messenger, Instagram e Meta.AI, già attivi in oltre 40 paesi.
Per sperimentare le potenzialità dei modelli, è sufficiente un ambiente di calcolo compatibile con GPU recenti; nel caso di Scout, basta una singola NVIDIA H100. Maverick, più complesso, richiede hardware distribuito o l’utilizzo tramite API cloud-based. Meta e Together AI offrono accesso anche tramite interfacce web e playground dedicati; questi strumenti consentono l’uso diretto dei modelli senza bisogno di setup avanzati. Per ora l’accesso web a meta.ai non è disponibile in Europa.

Il codice dei modelli è open-weight; questo non significa completamente open source, ma le weight sono disponibili per l’esecuzione e fine-tuning. Le aziende possono quindi integrare Llama 4 nei propri flussi di lavoro; servono però competenze di machine learning per ottenere risultati personalizzati. La documentazione ufficiale fornisce istruzioni dettagliate; include esempi d’uso, guide di ottimizzazione e best practices. Le licenze d’uso prevedono limitazioni per l’uso commerciale; tuttavia, molte applicazioni educative, sperimentali e non-profit risultano coperte.
Meta ha posto alcune restrizioni sull’uso in Europa, a causa della normativa sui dati; in questi contesti, l’accesso richiede licenze aggiuntive o partnership locali. Inoltre, le funzionalità multimodali complete sono attualmente disponibili solo per l’inglese e per utenti negli Stati Uniti; è previsto però un graduale rilascio globale.
Llama 4 : architettura e caratteristiche tecniche
I modelli Llama 4 integrano un’architettura a MoE, ovvero “Mixture of Experts”. Questo sistema attiva solo una porzione dei parametri complessivi per ogni token elaborato; in pratica, rende i modelli più leggeri da eseguire e più scalabili.
Llama 4 Scout, ad esempio, utilizza 17 miliardi di parametri attivi su un totale di 109 miliardi, con 16 esperti specializzati. Maverick, la variante più avanzata, mantiene gli stessi parametri attivi ma espande il numero di esperti a 128 e la quantità totale di parametri a 400 miliardi. Entrambi supportano input multimodali e sono in grado di gestire contesti lunghi: fino a 10 milioni di token nel caso di Scout e 1 milione per Maverick. Le prestazioni, secondo i benchmark pubblici, superano diversi modelli concorrenti su test di logica, codifica e comprensione testuale.
La loro progettazione si basa sul modello in fase di addestramento noto come Llama 4 Behemoth, che include 288 miliardi di parametri attivi e quasi due trilioni complessivi. Questo modello è ancora in fase di sviluppo, ma già supera ChatGPT 4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro in test come MATH-500 e GPQA Diamond.
Inoltre, Meta ha introdotto nuove tecniche di pre-addestramento, tra cui MetaP, che consente una gestione più precisa dei parametri critici del modello, come il tasso di apprendimento per livello. Il training ha incluso più di 30 trilioni di token, provenienti da testo, immagini e video, con una varietà linguistica dieci volte superiore a quella di Llama 3.
Prestazioni e confronto con altri modelli
Meta ha puntato a un equilibrio preciso tra performance elevate e ottimizzazione delle risorse. Llama 4 Scout, ad esempio, funziona su una singola GPU NVIDIA H100; ciò ne facilita l’adozione anche in ambienti con limitazioni infrastrutturali. Questa caratteristica amplia l’accessibilità, permettendo a team piccoli o indipendenti di sperimentare con modelli avanzati senza dover investire in cluster complessi.

Entrambi i modelli, Scout e Maverick, si comportano in modo competitivo nei test di riferimento; superano rivali noti come Gemma 3, Gemini 2.0 Flash-Lite e Mistral 3.1. I risultati emergono in benchmark mirati alla comprensione del linguaggio, alla generazione testuale e alla coerenza nei dialoghi. Maverick, in particolare, mostra performance paragonabili a quelle di DeepSeek v3; eccelle in attività come programmazione e ragionamento logico. Lo fa con la metà dei parametri attivi rispetto ai concorrenti; questo indica un’efficienza computazionale ben calibrata. Un altro dato interessante riguarda la versione sperimentale per chatbot; questa ha raggiunto un punteggio ELO di 1417 su LMArena.
Oltre alle performance, Meta ha posto attenzione all’impatto sociale e culturale. Dichiarano di aver affrontato le tendenze ideologiche dei modelli precedenti; Llama 4 fornisce risposte meno polarizzate, più contestualizzate e aperte a interpretazioni plurali. Secondo Meta, il modello ora copre un ampio spettro di domande; riesce a mantenere un approccio neutrale, evitando giudizi impliciti. Il tasso di rifiuto delle richieste è stato ridotto; ora è simile a quello del modello Grok 3 di X AI. Rispetto a Llama 3.3, si registra un dimezzamento nel numero di prompt considerati inaccettabili. Questo tipo di comportamento può favorire un’interazione più aperta e bilanciata; in particolare nei temi delicati o divisivi.
Llama 4 : conclusione
L’uscita di Llama 4 disegna nuove traiettorie nell’accesso all’intelligenza artificiale generativa. La combinazione tra architettura MoE, gestione multimodale e apertura del codice rende questi modelli strumenti flessibili e adattabili, non solo per scopi di ricerca ma anche in ambienti produttivi. Llama 4 Scout e Maverick ampliano il ventaglio di possibilità per chi sviluppa applicazioni complesse, anche grazie al supporto di contesti estremamente lunghi e input misti. Sebbene Llama 4 Behemoth non sia ancora disponibile, la sua influenza si fa già sentire nei modelli derivati, che dimostrano un’elevata maturità tecnologica.
Non è ancora chiaro se la promessa di neutralità e inclusività sarà mantenuta nel tempo, ma l’architettura e le performance dei Llama 4 pongono le basi per una generazione di AI più versatile e controllabile. In un contesto sempre più competitivo, i nuovi modelli di Meta potrebbero spostare l’equilibrio nel panorama dell’intelligenza artificiale.