DeepSeek, la dinamica azienda cinese IA, sta rapidamente scalando le vette del settore. Dopo aver catturato l’attenzione globale prima con il modello V3 e subito dopo con il suo modello di ragionamento IA R1, DeepSeek ieri è tornata alla ribalta con Janus Pro. Un generatore di immagini multimodale pronto a competere direttamente con DALL-E 3 di OpenAI. Il modello per il momento è stato solo presentato su HuggingFace. E’ un modello che permetterà alla chat conversazionale di Deepseek di comprendere e creare immagini.
La presentazione di Janus Pro si inserisce in un contesto di crescente fermento nel mercato dell’intelligenza artificiale; le innovazioni si susseguono a ritmo incalzante e la competizione si fa sempre più serrata. Janus Pro è un segnale che l’azienda non intende limitarsi a seguire le orme dei leader del settore; punta decisamente a ridefinire i parametri di riferimento nel settore IA.
L’architettura di Janus Pro, descritta in dettaglio in un documento di ricerca, rivela un sofisticato approccio ingegneristico. Il modello si basa su una rete neurale che separa la codifica visiva in un percorso distinto; pur mantenendo un’architettura transformer unificata per l’elaborazione. Questa scelta progettuale supera le limitazioni del modello Janus originale, che, pur promettente, mostrava alcune debolezze in termini di performance con prompt brevi e bassa qualità di generazione testo-immagine.
Con Janus Pro il risultato è un modello che, sulla carta, promette non solo di eguagliare, ma in alcuni casi di superare le prestazioni dei concorrenti più blasonati. La sfida a DALL-E 3 di openAI è aperta, e il mondo dell’intelligenza artificiale osserva con attenzione gli sviluppi futuri.
Janus Pro: prestazioni
Janus Pro si presenta come una famiglia di modelli multimodali di grandi dimensioni; declinati nelle versioni 1B e 7B (1 miliardo e 7 miliardi di parametri). Sono progettati per eccellere sia nella generazione di immagini (partendo da un prompt testuale) che nell’elaborazione della visione.
Questa duplice capacità è un tratto distintivo che lo accomuna a DALL-E 3 di OpenAI, con cui condivide la logica di funzionamento; si fornisce al modello un prompt testuale e Janus Pro genera un’immagine corrispondente. Tuttavia, le somiglianze si fermano qui. DeepSeek enfatizza i miglioramenti apportati rispetto al precedente modello Janus 1.3B, rilasciato l’anno scorso.
Il cuore dell’innovazione risiede nel disaccoppiamento della codifica visiva, un’architettura che consente a Janus Pro di gestire in modo più efficiente compiti multimodali complessi. Nei benchmark GenEval e DPG-Bench, Janus Pro 7B dimostra di superare sia Stable Diffusion 3 Medium che DALL-E 3 di OpenAI, seppur di misura. Questi risultati, se confermati da test indipendenti, testimoniano l’efficacia dell’approccio di DeepSeek.
DeepSeek dichiara di aver ottenuto questi risultati utilizzando solo poche centinaia di GPU, grazie all’impiego del framework HAI-LLM su PyTorch. Il processo di addestramento, descritto nel dettaglio nel paper di ricerca, ha richiesto circa 14 giorni su un cluster di 16/32 nodi, ciascuno equipaggiato con otto GPU Nvidia A100 (40GB).
Questi tempi di addestramento brevi, uniti alle prestazioni elevate, dimostrano che DeepSeek ha ottimizzato in modo efficace l’utilizzo delle risorse computazionali.
Nvidia ha perso 600 miliardi di dollari in un solo giorno!
Ieri, le azioni delle aziende tecnologiche statunitensi hanno subito un forte calo tra il 10 e il 20%, poiché la leadership americana nel campo dell’intelligenza artificiale è stata messa in discussione.
Nvidia è stato il titolo azionario che ha pagato più di tutti l’avanzata di Deepseek. In un solo giorno il titolo ha perso oltre 600 miliardi di dollari. Più di quanto l’amministrazione Trump ha promesso nel suo programma IA per i prossimi anni; ovvero 500 miliardi di dollari, nel progetto Startgate.
Negli ultimi mesi il messaggio che veniva lanciato dalle grandi aziende della Silicon Valley è stato che per primeggiare nell’IA fosse necessario investire fiumi di dollari; investimenti in faraonici datacenter pieni di costosissime GPU, per lo più GPU Nvidia.
Il messaggio nascosto di Deepseek invece è stato che con un “minimo” investimento di solo 6 milioni di dollari è stato possibile raggiungere un risultato alla pari e a volte migliore di quelli raggiunti da OpenAI, Gemini, Meta e altri competitor.
Costi ridotti nell’addestramento, costi ridotti nelle esecuzioni delle chat conversazionali, costi ridotti delle API per gli sviluppatori (costi del 99% inferiori rispetto le API di OpenAI). Ed in pochi giorni l’app di Deepseek sull’Apple Store ha superato per numero di download quello di ChatGPT…
Ieri anche il presidente degli Stati Uniti Donald Trump è intervenuto sull’avanzata di Deepseek. Ha dichiarato che è un bene che le aziende in Cina (DeepSeek) abbiano escogitato un metodo di intelligenza artificiale più economico e più rapido.
“Il lancio di DeepSeek, l’intelligenza artificiale di un’azienda cinese, dovrebbe servire da monito per le nostre industrie, spingendole a concentrarsi al massimo sulla competizione per vincere.“, ha dichiarato Trump in Florida.
Tempi di addestramento di Janus Pro
I tempi di addestramento, contenuti in una o due settimane, sono un indicatore significativo dell’efficienza di Janus Pro. Altri modelli comparabili, spesso richiedono tempi di addestramento molto più lunghi e un impiego massiccio di risorse computazionali. DeepSeek sembra aver trovato un equilibrio virtuoso tra prestazioni e costi di addestramento; ha aperto la strada a modelli IA più accessibili e sostenibili.
La scelta di DeepSeek di rilasciare tutti i suoi modelli con licenza MIT è un altro elemento che sottolinea l’approccio aperto e collaborativo. La licenza MIT è una licenza open source permissiva che consente un ampio utilizzo del codice; sia per scopi commerciali che non commerciali. Questa scelta facilita la diffusione di DeepSeek e incoraggia la comunità a sperimentare, adattare e migliorare il modello.
DeepSeek ha rilasciato Janus Pro su Hugging Face, la piattaforma di riferimento per la comunità dell’intelligenza artificiale. L’azienda non si nasconde dietro brevetti proprietari; al contrario, mette a disposizione i suoi modelli open source. Un invito esplicito alla comunità IA per testarli, utilizzarli e contribuire al loro sviluppo. Per il momento Janus Pro non è ancora disponibile sulla chat conversazionale di Deepseek. E’ un progetto ancora sperimentale, ma dimostra di aver raggiunto già un buon livello qualitativo.
DeepSeek ha ridefinito le regole della AI
DeepSeek, con le sue recenti innovazioni, sta contribuendo attivamente a ridefinire i confini del settore IA. Il successo del chatbot DeepSeek, balzato in cima alle classifiche dell’App Store, e il lancio di modelli performanti come R1 e Janus Pro, hanno generato un’onda d’urto nel settore tecnologico, in particolare nella Silicon Valley.
DeepSeek dimostra che è possibile competere con i giganti del settore anche con risorse computazionali inferiori. Questo grazie a un approccio ingegneristico intelligente e all’ottimizzazione dei processi di addestramento. Significa raggiungere lo stesso scopo a cifre notevolmente inferiori.
Anche l’hardware necessario per l’intelligenza artificiale si arricchisce di nuove prospettive. DeepSeek ha dimostrato che non è sempre necessario investire in infrastrutture mastodontiche per ottenere risultati di rilievo. L’ottimizzazione degli algoritmi e l’efficienza computazionale possono compensare, almeno in parte, la potenza bruta dell’hardware.
L’efficienza dei modelli di Deepseek, unita alla sua licenza open source, potrebbe rappresentare un fattore di democratizzazione dell’intelligenza artificiale. Modelli performanti e accessibili aprono nuove opportunità per aziende di tutte le dimensioni e per sviluppatori indipendenti; riducendo la dipendenza dalle grandi piattaforme proprietarie.
Questo approccio potrebbe rivelarsi particolarmente importante in futuro, in un contesto in cui la sostenibilità e l’accessibilità delle tecnologie IA diventano prioritarie. DeepSeek si posiziona come un protagonista in questo scenario in evoluzione, portando avanti una visione di intelligenza artificiale efficiente, accessibile e aperta alla collaborazione. Il futuro dell’IA si preannuncia ricco di sorprese.