L’intelligenza artificiale continua a evolversi; nuovi modelli linguistici sempre più potenti vengono rilasciati a cadenza regolare. L’ultima novità di oggi è Grok-2, la nuova famiglia di modelli IA sviluppata da xAI, l’azienda fondata da Elon Musk. Questa nuova iterazione promette capacità avanzate di ragionamento e comprensione del linguaggio naturale. Ma la vera novità è che oltre alle capacità conversazionali, Grok-2 accetta anche prompt per la generazione di immagini.
Un pò quello che ha fatto OpenAI qualche giorno fa permettendo la generazione di 2 immagini DALL-E 3 al giorno nella sua chat conversazionale ChatGPT (attualmente potenziata da GPT-4o). Ma ci sono alcune differenze; in Grok-2 al momento non ci sono limiti giornalieri nella generazione di immagini, e la qualità delle immagini è molto buona grazie alla collaborazione con Black Forest Labs.
Inoltre, dalle prime immagini Grok-2 che cominciano a girare nei social, sembra che il modello di generazione immagini sia senza restrizioni di alcun tipo, in linea con la filosofia “senza censura” di Elon Musk.
A parte questo aspetto, il rilascio di Grok-2 segna un importante passo avanti per xAI; mira a consolidare la sua posizione nel competitivo mercato dell’intelligenza artificiale conversazionale.
E in attesa di Grok-3 per fine anno, su cui Elon Musk ha puntato moltissimo.
Con prestazioni che in alcuni benchmark superano o si avvicinano a quelle dei modelli più affermati, Grok-2 si candida a diventare uno strumento di riferimento per chi cerca soluzioni AI all’avanguardia. In questo articolo analizzeremo con maggior dettaglio le caratteristiche di Grok-2; le sue potenzialità e i possibili impatti sul futuro dell’AI.
Caratteristiche e innovazioni di Grok-2
Grok-2 rappresenta un significativo passo avanti rispetto al suo predecessore Grok-1.5. xAI ha introdotto due varianti del modello: Grok-2 e Grok-2 mini. Il primo è la versione completa e più potente; il secondo è una versione più leggera e veloce, pensata per applicazioni che richiedono risposte rapide. Entrambi i modelli sono attualmente in fase beta e accessibili agli abbonati Premium e Premium+ della piattaforma 𝕏.
Una delle caratteristiche più interessanti di Grok-2 è la sua capacità di elaborare non solo testo, ma anche immagini. Questa funzionalità multimodale apre nuove possibilità di interazione e analisi dei contenuti visivi. E’ una caratteristica che già hanno i modelli più avanzati come Claude Sonnet 3.5 e
GPT-4o e che ancora mancava a Grok.
Inoltre, Grok-2 è stato integrato strettamente con la piattaforma 𝕏, permettendo un’analisi contestuale più profonda dei contenuti social. Secondo xAI, Grok-2 eccelle particolarmente nel ragionamento e nell’uso di strumenti; dimostra abilità superiori nel riconoscere informazioni mancanti, ragionare su sequenze di eventi e scartare contenuti irrilevanti.
Queste capacità avanzate di ragionamento potrebbero rendere Grok 2 particolarmente utile in scenari che richiedono un’analisi approfondita. Un altro aspetto innovativo di Grok 2, come scritto in introduzione, è la sua integrazione con FLUX.1; un modello di generazione di immagini sviluppato da Black Forest Labs. Questa collaborazione permette a Grok 2 di creare immagini basate su descrizioni testuali. xAI non specifica quale modello FLUX.1 sia utilizzato in Grok 2 tra il Pro, il dev o lo schnell. Dai primi test, i risultati sono di buona qualità e corrispondenti con le capacità di FLUX.1 .
Prestazioni e confronto con altri modelli LLM
La maggior parte delle informazioni fornite da xAI nel suo blog di lancio non rivela troppi dettagli. Per esempio non sono noti da quanti parametri siano costituiti i due nuovi modelli linguistici. Tuttavia, sono stati rilasciati i risultati dei test, che mostrano che Grok 2 spesso offre prestazioni migliori rispetto all’attuale concorrenza.
Le prestazioni di Grok 2 sono state valutate da xAI attraverso una serie di benchmark accademici che coprono ragionamento, comprensione della lettura, matematica, scienza e codifica. Grok 2 supera in molti casi modelli affermati come GPT-4 Turbo e Claude 3 Opus. Ad esempio, nel benchmark GPQA (Graduate-level Physics Questions and Answers), Grok 2 ha ottenuto un punteggio del 56,0%; supera GPT-4 Turbo (48,0%) e Claude 3 Opus (50,4%).
Nel test MMLU (Massive Multitask Language Understanding), che valuta la conoscenza generale, Grok 2 ha raggiunto l’87,5%; supera sia GPT-4 Turbo (86,5%) che Claude 3 Opus (85,7%). Particolarmente notevole è la performance di Grok 2 nel benchmark MATH, dove ha ottenuto un punteggio del 76,1%, significativamente superiore a GPT-4 Turbo (72,6%) e Claude 3 Opus (60,1%).
Questi risultati suggeriscono che Grok 2 potrebbe essere particolarmente efficace in applicazioni che richiedono ragionamento matematico avanzato. Inoltre, Grok 2 ha dimostrato capacità nella comprensione visiva, ottenendo risultati all’avanguardia in compiti come il ragionamento matematico visivo (MathVista) e le risposte a domande basate su documenti (DocVQA). Questi risultati indicano che Grok 2 potrebbe essere particolarmente utile in scenari che richiedono l’integrazione di informazioni testuali e visive, come l’analisi di documenti complessi o la risoluzione di problemi matematici visuali.
Accesso a Grok-2
L’annuncio del rilascio di Grok 2 da parte di xAI ha suscitato interesse. Al momento, le opzioni per interagire con Grok 2 sono piuttosto limitate, ma xAI ha delineato alcuni piani per il futuro che potrebbero ampliare significativamente l’accessibilità del modello.
Attualmente, l’accesso primario a Grok 2 è riservato agli abbonati Premium e Premium+ della piattaforma 𝕏. Questo significa che per sperimentare le capacità di Grok 2 è necessario sottoscrivere uno di questi piani di abbonamento. Una volta ottenuto l’accesso, è possibile interagire con Grok 2 attraverso l’interfaccia dedicata all’interno dell’app 𝕏. Come già detto, è possibile anche richiedere a Grok 2 la generazione di immagini. Per il momento come nelle versioni precedenti di Grok, non è possibile allegare documenti o immagini per una analisi o elaborazione del contenuto.
Questa modalità di accesso limita le possibilità di utilizzo di Grok-2 in altri contesti o per applicazioni personalizzate. xAI ha annunciato che prevede di rendere disponibili Grok-2 e Grok-2 mini attraverso un’API enterprise entro la fine di agosto 2024. Questo potrebbe aprire nuove opportunità per gli sviluppatori e le aziende interessate a integrare le capacità di Grok 2 nelle proprie applicazioni e servizi.
Grok-2: conclusioni
Il rilascio di Grok-2 rappresenta un importante passo avanti nel campo dell’intelligenza artificiale conversazionale in attesa di Grok-3 che sarà rilasciato a Dicembre. Le sue prestazioni superiori in vari benchmark e le sue capacità multimodali lo posizionano come un serio concorrente per i modelli IA più affermati.
L’integrazione con la piattaforma 𝕏 e la collaborazione con Black Forest Labs per la generazione di immagini aprono nuove possibilità e mettono Grok-2 in diretta concorrenza con ChatGPT e il suo generatore di immagini DALLE-3.
Grok-2 promette di essere piuttosto interessante, ma la maggior parte di chi segue con interesse l’IA sta sicuramente aspettando la presentazione di Grok-3. Il modello LLM Grok-3 è in questo momento in fase di addestramento con circa 100.000 NVIDIA H100; contro le 20.000 NVIDIA H100 servite per l’addestramento di Grok-2. Da questi numeri si può avere un idea di quello che potrebbe venir fuori da Grok-3.