DeepSeek ha recentemente annunciato il suo nuovo modello, DeepSeek-v3. DeepSeek-V3 è un modello open-source di intelligenza artificiale che si distingue per essere il più avanzato della sua categoria.
DeepSeek-v3 è stato sviluppato da due società di intelligenza artificiale cinesi, la Hangzhou DeepSeek Artificial Intelligence e la Beijing DeepSeek Artificial Intelligence. Sviluppato con un’architettura Mixture-of-Experts (MoE) e supportato da tecnologie innovative, questo modello è il più grande mai creato nella comunità open-source, con 671 miliardi di parametri totali (contro i 450 miliardi di parametri del modello LLaMa).
Inoltre, DeepSeek-V3 supera le prestazioni non solo di altri modelli open-source come LLaMA, ma anche di modelli chiusi di alto profilo come Sonnet 3.5 e ChatGPT-4o. La sua natura open-source, combinata con la disponibilità di documentazione e framework di addestramento, lo rende accessibile a ricercatori e sviluppatori in tutto il mondo.
Architettura avanzata e innovazioni tecniche
DeepSeek-V3 si basa su tecnologie avanzate come il Multi-Head Latent Attention (MLA) e il DeepSeekMoE; tecnologie perfezionate attraverso le precedenti versioni del modello. Queste caratteristiche consentono una gestione ottimale dei carichi computazionali; migliorano notevolmente la velocità di inferenza fino a 60 token al secondo.
Tra le altre innovazioni, troviamo l’adozione del training in precisione mista FP8; riduce il consumo di memoria GPU senza compromettere la precisione. Inoltre, l’algoritmo DualPipe minimizza i tempi morti durante l’elaborazione, sovrapponendo calcolo e comunicazione in maniera più efficiente. Questi avanzamenti non solo rendono il modello più performante, ma contribuiscono anche a contenere i costi di addestramento; costi che si attestano a circa 5,5 milioni di dollari, una cifra alta ma allo stesso tempo notevolmente competitiva nel settore.
Prestazioni e benchmark
Il modello è stato sottoposto a diversi test di benchmarking, superando i risultati di molti altri modelli open-source. Sui dataset educativi come MMLU e MMLU-Pro, ha raggiunto rispettivamente punteggi di 88,5 e 75,9; invece nei compiti di ragionamento matematico, come MATH-500, ha ottenuto un risultato eccezionale di 90,2. Per quanto riguarda la programmazione, DeepSeek-V3 si distingue nei test di codifica, dimostrando la sua versatilità e robustezza. Questi risultati sottolineano l’efficacia del modello nel gestire una vasta gamma di applicazioni, rendendolo un punto di riferimento per il settore open-source.
Ha superato controparti open come Llama-3.1-405B e Qwen 2.5-72B; inoltre, ha rivaleggiato con modelli closed-source come GPT-4o in molti compiti. È importante notare che le sue prestazioni sui benchmark incentrati sul cinese e sulla matematica sono state senza eguali; ha ottenuto un punteggio di 90.2 su Math-500, con Qwen a 80. Anthropic’s Claude 3.5 ha mantenuto un vantaggio solo in compiti specifici come MMLU-Pro e SWE Verified.
Accessibilità e futuro del modello DeepSeek-V3
Oltre alle caratteristiche tecniche, uno degli aspetti più apprezzabili di DeepSeek-V3 è la sua disponibilità open-source. Il modello, insieme alla documentazione e ai framework di addestramento, è accessibile su piattaforme come Hugging Face.
Inoltre, il team di DeepSeek sta lavorando su nuove funzionalità, come “Deep Roles”, che permetteranno di creare ruoli personalizzati o esplorare quelli condivisi da altri. Sebbene ancora in fase iniziale, questa funzione potrebbe aprire nuove prospettive per l’utilizzo personalizzato dell’IA, incrementando ulteriormente l’interattività e la flessibilità del modello. Qualcosa di simile ai GPT personalizzati.
DeepSeek-V3: conclusione
DeepSeek-V3 si posiziona al momento come un modello di riferimento nell’ambito delle IA open-source, grazie alla combinazione di innovazioni tecnologiche e accessibilità globale.
Le sue prestazioni, unite a costi di gestione contenuti, lo rendono un’opzione praticabile per numerose applicazioni, dall’istruzione alla programmazione. Con l’introduzione di funzionalità future come “Deep Roles”, il modello potrebbe ridefinire ulteriormente i limiti dell’intelligenza artificiale. Se vuoi provare online il modello DeepSeek-V3 puoi farlo da questo link .