Con un post su X, Meta ha recentemente annunciato Llama 2 Long, un nuovo grande modello linguistico open source in grado di gestire lunghi contenuti testuali e relazioni contestuali più complesse.
Inoltre, è stato pubblicato anche un nuovo documento di ricerca sul modello linguistico intitolato “Effective Long-Context Scaling of Foundation Models” in cui si parla del modello Llama 2 Long per l’elaborazione di testi lunghi fino a 32.768 token.
Cos’è Llama 2 Long
Si tratta di un modello potenziato appositamente per la comprensione e generazione di lunghi contenuti testuali.
È stato costruito partendo da Llama 2, il modello linguistico open source di Meta rilasciato in precedenza. I ricercatori hanno continuato il pre-addestramento con altri 400 miliardi di token, che sono stati divisi in molte sequenze più piccole per addestrare varie varianti del modello.
Per le varianti del modello con 7 miliardi e 13 miliardi di parametri è stata utilizzata una sequenza di 32.768 token, mentre le varianti del modello da 34 e 70 miliardi di parametri vengono addestrate utilizzando una sequenza di 16.384 token.
Nel metodo di modellazione del linguaggio, gli sviluppatori hanno scoperto che Llama 2 Long ha un comportamento di ridimensionamento basato sulla legge di potenza (Power-Law Scaling Behavior) correlato alla lunghezza del contesto. Ovvero, quando la lunghezza del contesto aumenta, aumenteranno anche le prestazioni del modello secondo una proporzione fissa.
Inoltre, il comportamento di ridimensionamento della legge di potenza mostra anche che la lunghezza del contesto è un altro elemento importante nel ridimensionamento dei modelli linguistici.
Llama 2 Long presenta anche un certo grado di miglioramento nelle attività standard a contesto breve, come lo sviluppo di programmi, la matematica e i benchmark delle conoscenze. I ricercatori hanno affermato di aver trovato un metodo semplice ed economico in grado di ottimizzare modelli lunghi pre-addestrati in modo continuo in modelli di chat.
Vantaggi del nuovo modello linguistico
Rispetto ad altri modelli linguistici in grado di gestire lunghi testi, presenta diversi vantaggi:
- Prestazioni superiori a GPT-3.5 Turbo su lunghi contenuti
- Capacità di correlare meglio informazioni contestuali tra frasi e paragrafi distanti
- Approccio open source che consente ulteriori miglioramenti da parte della comunità
- Costi di addestramento inferiori grazie all’approccio a sequenze più piccole
Casi d’uso
Llama 2 Long è progettato per una serie di casi d’uso avanzati, tra cui:
- Chatbot più naturali e capaci di conversazioni complesse
- Analisi di lunghi documenti e contenuti con elevate richieste contestuali
- Comprensione e generazione di contenuti tecnici complessi come codice sorgente
- Interazioni di dialogo avanzate per assistenti virtuali
Essendo un modello open source, Llama 2 Long sarà reso disponibile pubblicamente per consentire ad aziende e ricercatori di sperimentare ed eseguire ulteriori miglioramenti.
Meta prevede che la disponibilità del modello porterà a progressi significativi nel campo dell’intelligenza artificiale conversazionale.
Meta alla sua conferenza annuale Connect ha anche accennato all’imminente uscita di Llama 3 nel primo trimestre 2024.