Meta ha rilasciato i primi modelli IA pre-addestrati che utilizzano la tecnica innovativa chiamata previsione multi-token. Questa nuova metodologia, presentata per la prima volta in un documento di ricerca ad aprile, si discosta dall’approccio tradizionale di addestramento dei grandi modelli linguistici (LLM).
Invece di prevedere solo la parola successiva in una sequenza o token, i modelli di Meta sono progettati per prevedere simultaneamente più parole future (multi-token). Ciò comporta un miglioramento significativo delle prestazioni e una riduzione dei tempi di addestramento.
multi-token: dettagli tecnici e prestazioni
Meta ha rilasciato quattro modelli linguistici su Hugging Face; la nota piattaforma per la condivisione e lo sviluppo di modelli e progetti di intelligenza artificiale. Ogni modello ha 7 miliardi di parametri, focalizzati su compiti di generazione di codice (coding). Due di questi modelli sono stati addestrati su 200 miliardi di token di codice; gli altri due su 1 trilione di token.
Inoltre, l’azienda ha sviluppato un quinto modello, non ancora rilasciato, con 13 miliardi di parametri. Ogni modello è composto da due componenti principali. Un “tronco condiviso“, che esegue i calcoli iniziali per generare uno snippet di codice; e una serie di “teste di output“, che generano un token alla volta.
Per valutare l’accuratezza dei suoi modelli di previsione multi-token, Meta ha utilizzato i test di riferimento MBPP e HumanEval. MBPP contiene circa 1.000 compiti di codifica Python; mentre HumanEval fornisce un set più complesso di compiti di codifica in diverse lingue di programmazione. Secondo quanto riportato, i risultati sono stati molto buoni. I modelli di Meta hanno mostrato miglioramenti del 17% e del 12% rispettivamente su MBPP e HumanEval. Inoltre, l’output dei modelli di Meta è stato generato tre volte più velocemente.
Implicazioni per lo sviluppo dell’IA
Il rilascio di questi modelli da parte di Meta si allinea con il suo impegno per la scienza aperta. L’attenzione iniziale è rivolta ai compiti di completamento del codice, vista la crescente domanda di strumenti di programmazione assistiti dall’IA.
Oltre ai modelli di previsione multi-token, Meta ha comunicato progressi nella generazione di immagini in testo e nel rilevamento del discorso generato dall’IA; Meta punta a diventare leader in molteplici domini dell’IA, non solo nei modelli linguistici.
Se l’efficacia di questo approccio di previsione multi-token di Meta sarà confermato, potrebbe potenzialmente diventare il nuovo standard nello sviluppo di LLM. Tuttavia, resta da vedere se potrà offrire efficienza senza compromettere la qualità.
multi-token: test dei modelli su locale
Dal momento che questi modelli sono stati appena rilasciati e sono principalmente destinati alla ricerca, non sono ancora disponibili su piattaforme user-friendly come LM Studio. Per provarli, è necessario scaricare il codice da Hugging Face e configurarli manualmente, il che richiede competenze tecniche avanzate. Se sei interessato a sperimentare con questi modelli multi-token, ti consigliamo di monitorare gli aggiornamenti su Hugging Face e LM Studio. Nei prossimi giorni potrebbero essere rilasciate versioni più accessibili.
multi-token: conclusioni
L’introduzione dei modelli di previsione multi-token di Meta potrebbe avere implicazioni di vasta portata; dalla riduzione dell’impatto ambientale dell’addestramento dell’IA al miglioramento delle capacità in compiti come la generazione di codice e l’elaborazione del linguaggio naturale.
L’impatto di questa innovazione, se risultasse efficace, sarà importante. Con la crescente complessità dei modelli di IA, la domanda di potenza computazionale ha sollevato preoccupazioni circa costi e impatto ambientale. Il metodo di previsione multi-token di Meta potrebbe offrire una possibile soluzione a questo problema.
Inoltre, questo nuovo approccio potrebbe migliorare la comprensione della struttura e del contesto del linguaggio nei modelli di IA. Prevedendo più token, questi modelli potrebbero colmare il divario tra l’IA e la comprensione del linguaggio umano.
La previsione multi-token di Meta potrebbe essere solo l’inizio di una nuova ondata di innovazioni nell’IA, che apriranno la strada a modelli ancora più efficienti e capaci in futuro.