Llama 2 Long nuovo modello linguistico open source di Meta

Con un post su X, Meta ha recentemente annunciato Llama 2 Long, un nuovo grande modello linguistico open source in grado di gestire lunghi contenuti testuali e relazioni contestuali più complesse.

Meta introduces LLAMA 2 Long

– context windows of up to 32,768 tokens
– the 70B variant can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks https://t.co/uzsVslLUkX pic.twitter.com/aXyPmeLXMo
— AK (@_akhaliq) September 29, 2023

Inoltre, è stato pubblicato anche un nuovo documento di ricerca sul modello linguistico intitolato “Effective Long-Context Scaling of Foundation Models” in cui si parla del modello Llama 2 Long per l’elaborazione di testi lunghi fino a 32.768 token.

Cos’è Llama 2 Long

Si tratta di un modello potenziato appositamente per la comprensione e generazione di lunghi contenuti testuali.

È stato costruito partendo da Llama 2, il modello linguistico open source di Meta rilasciato in precedenza. I ricercatori hanno continuato il pre-addestramento con altri 400 miliardi di token, che sono stati divisi in molte sequenze più piccole per addestrare varie varianti del modello.

Per le varianti del modello con 7 miliardi e 13 miliardi di parametri è stata utilizzata una sequenza di 32.768 token, mentre le varianti del modello da 34 e 70 miliardi di parametri vengono addestrate utilizzando una sequenza di 16.384 token.

Nel metodo di modellazione del linguaggio, gli sviluppatori hanno scoperto che Llama 2 Long ha un comportamento di ridimensionamento basato sulla legge di potenza (Power-Law Scaling Behavior) correlato alla lunghezza del contesto. Ovvero, quando la lunghezza del contesto aumenta, aumenteranno anche le prestazioni del modello secondo una proporzione fissa.

Inoltre, il comportamento di ridimensionamento della legge di potenza mostra anche che la lunghezza del contesto è un altro elemento importante nel ridimensionamento dei modelli linguistici.

Llama 2 Long presenta anche un certo grado di miglioramento nelle attività standard a contesto breve, come lo sviluppo di programmi, la matematica e i benchmark delle conoscenze. I ricercatori hanno affermato di aver trovato un metodo semplice ed economico in grado di ottimizzare modelli lunghi pre-addestrati in modo continuo in modelli di chat.

Vantaggi del nuovo modello linguistico

Rispetto ad altri modelli linguistici in grado di gestire lunghi testi, presenta diversi vantaggi:

Prestazioni superiori a GPT-3.5 Turbo su lunghi contenuti
Capacità di correlare meglio informazioni contestuali tra frasi e paragrafi distanti
Approccio open source che consente ulteriori miglioramenti da parte della comunità
Costi di addestramento inferiori grazie all’approccio a sequenze più piccole

Casi d’uso

Llama 2 Long è progettato per una serie di casi d’uso avanzati, tra cui:

Chatbot più naturali e capaci di conversazioni complesse
Analisi di lunghi documenti e contenuti con elevate richieste contestuali
Comprensione e generazione di contenuti tecnici complessi come codice sorgente
Interazioni di dialogo avanzate per assistenti virtuali

Essendo un modello open source, Llama 2 Long sarà reso disponibile pubblicamente per consentire ad aziende e ricercatori di sperimentare ed eseguire ulteriori miglioramenti.

Meta prevede che la disponibilità del modello porterà a progressi significativi nel campo dell’intelligenza artificiale conversazionale.

Meta alla sua conferenza annuale Connect ha anche accennato all’imminente uscita di Llama 3 nel primo trimestre 2024.

Ultimi Articoli

Meta annuncia Llama 2 Long

Cos’è Llama 2 Long

Vantaggi del nuovo modello linguistico

Casi d’uso

Articoli collegati