La rincorsa al primato dell’IA continua. Appena una settimana fa Mistral presentava un nuovo modello di intelligenza artificiale, Mistral Large. Ieri Anthropic ha presentato Claude 3 che cambia tutte le carte in tavola. Mistral affermava che il suo modello Mistral Large aveva performance superiori sia a Gemini che a Claude 2.1. Inoltre, era appena sotto GPT-4 nei test MMLU. I test MMLU aiutano a valutare le prestazioni dei sistemi di IA nel comprendere un discorso in lingue diverse su domande a livello universitario.
ChatGPT era all’86.4%, Mistral Large all’81,2%, Claude 2.1 al 78.5% e dietro gli altri (Gemini Pro, LLama, GPT 3.5 ecc.). Da oggi, Claude 3, supera tutti e in tutti i test IA. Per la prima volta diventa leader dei modelli IA, sorpassando anche GPT-4 di OpenAI. Fino ad oggi nessun altro modello aveva battuto GPT-4 su una serie di benchmark noti per l’IA.
Claude 3
Anthropic, la startup fondata nel 2021 da un gruppo di ricercatori che si sono staccati da OpenAI, dopo il lancio della versione Claude 2.1 a novembre 2023 ha attratto l’interesse di molti investitori. Tra questi, Amazon con un investimento da 4 miliardi di dollari; e Google con un investimento da 2 miliardi di dollari.
Anthropic ha continuato a lavorare in silenzio. Cos,ì ieri ha annunciato su X e sul Blog proprietario, il suo nuovo modello di intelligenza artificiale Claude 3. Il modello o large language model (LLM) può essere utilizzato solo in remoto (come GPT-4) tramite API; oppure in una chat conversazionale o chatbot (come il noto chatGPT) dal link Claude (in versione gratuita o a pagamento).
Performance e modelli
Claude 3 è stato rilasciato in tre differenti modelli (in modo simile a Gemini): Haiku, Sonnet e Opus.
I tre modelli sono stati creati in base a requisiti di velocità di risposta e intelligenza. Opus è il meno veloce ma più intelligente. Haiku è il più veloce, mentre Sonnet rappresenta l’equilibrio tra intelligenza e velocità. Più veloce significa anche meno costoso (meno risorse computazionali) e viceversa.
Secondo i test Anthropic, Claude 3 (Opus) supera tutti i modelli finora conosciuti. Sempre secondo Anthropic, Claude 3 (Opus) “Mostra livelli di comprensione in compiti complessi quasi umani “.
Da quanto si evince dalla tabella sotto, è la prima volta che un modello GPT perde la posizione di leader; viene da chiedersi “si, ma per quanto tempo” ? Essere leader dei modelli IA, significa attrarre l’attenzione dei principali investitori mondiali.
Dalla tabella sopra, si nota che anche il modello intermedio Claude 3 (Sonnet) supera GPT-4 in molti test IA; ma non lo supera nel test considerato più importante MMLU. Da notare l’efficacia di Claude 3 nei test matematici multilingua, in cui raggiunge un punteggio di 90.7% con 0 shot (contro il 74.5% di GPT4 con 5 shot).
Uno “shot 0” indica che il modello esegue il compito senza aver visto nessun esempio specifico durante la fase di addestramento. Anche il GPQA è decisamente più alto del valore GPT-4 (da 35.7% al 50.4%). GPQA indica la qualità con la quale il modello interpretare correttamente la domanda, identifica l’informazione richiesta e fornisce una risposta chiara e concisa.
Multimodale, testo e immagini
Claude 3 diventa multimodale (Claude 2.1 era in grado di elaborare solo testo). I modelli Claude 3 possono ora elaborare un’ampia gamma di formati visivi, tra cui foto, diagrammi, grafici e diagrammi tecnici. In questo caso, i risultati sono molto simili alla concorrenza.
Velocità di risposta
Secondo Anthropic, i modelli Claude 3 sono anche decisamente più veloci nell’elaborazione delle risposte.
Claude 3 Haiku (il modello base Calude 3) è il modello più veloce; di conseguenza, anche più economico dal punto di vista delle richieste di risorse al computer (GPU o CPU neurale IA). Lo è anche rispetto tutti i modelli in circolazione della sua categoria di intelligenza. Claude 3 Haiku è in grado di leggere un documento PDF di circa 10000 Token, con informazioni sia testuali sia visuali come diagrammi e grafici, in meno di tre secondi.
Ricordo che un token è una singola unità di testo, come una parola, un numero o un simbolo. I token possono essere anche composti da immagini, video, audio o codice.
Claude 3 Sonnet (il modello intermedio) secondo Anthropic è due volte più veloce di Claude 2 e Claude 2.1; inoltre, offre livelli di intelligenza più elevati. Claude 3 Opus (il modello migliore) offre invece velocità simili a Claude 2 e 2.1.
Finestra di contesto invariata a 200K
La famiglia di modelli Claude 3 offrirà inizialmente una finestra di contesto di 200K token. Si tratta della stessa finestra di contesto di Claude 2.1. Anthropic afferma però che tutti e tre i modelli saranno in grado di accettare input superiori a 1 milione di token. Questi input molto larghi saranno resi disponibili solo a clienti selezionati.
Ricordo che Gemini Advanced ha finestre di contesto da 1 milione di token, mentre GPT4 è limitato a 128k token. Mistral Large offre 32k token e Claude 2.1 aveva una finestra di contesto di 200K token.
Avere finestre di contesto ampie per un chatbot significa che può ricevere richieste molto più lunghe. Quanto più grande è la finestra di contesto di un modello, tanto più informazioni può accogliere ed elaborare in un dato prompt. Il suo output potrebbe essere più coerente, pertinente e utile.
Anthropic nel suo annuncio fa notare che per avere una finestra di contesto efficiente, il modello deve essere anche in grado di memorizzare bene il contenuto della finestra. Claude 3 Opus ha un ricordo quasi perfetto della finestra di contesto da 200K, superando la precisione del 99%.
Anthropic ha progettato la famiglia di modelli Claude 3 anche per essere affidabili oltre che potenti. L’azienda dispone di team dedicato alla mitigazione dei rischi (in modo simile al red team di OpenAI), che spazia dalla disinformazione all’abuso su minori, fino all’interferenza elettorale e al potenziale uso malevolo in ambito biologico. L’azienda annuncia progressi anche nella riduzione dei pregiudizi all’interno dei modelli. Inoltre, continua a praticare un monitoraggio per individuare potenziali rischi futuri, in linea con le normative vigenti.
Claude 3 : allucinazioni e imprecisione nelle risposte
Le allucinazioni IA e le imprecisioni nelle risposte dei modelli di intelligenza artificiale sono un problema noto. Con Claude 3, Anthropic ha lavorato molto per limitare il problema. Per valutare questo aspetto, le risposte fornite dai modelli sono classificate come corrette, errate (o inventate) o come ammissioni di incertezza (in cui il modello dichiara di non avere la risposta).
Rispetto al precedente modello (Claude 2.1), Claude 3 Opus dimostra un miglioramento del 50% nell’accuratezza delle risposte su domande complesse, riducendo anche la generazione di risposte sbagliate. Tra non molto, i modelli Claude 3 citeranno anche le fonti precise dei materiali di riferimento per supportare e verificare la correttezza delle informazioni fornite.
Disponibilità Claude 3
Opus e Sonnet sono disponibili già da oggi nella API di Claude, con un costo rispettivamente di $15 per milione di token (Opus) e $3 per milione di token (Sonnet). Haiku sarà presto disponibile nella API al costo di soli $0.15 per milione di token.
Il chatbot su Claude.ai disponibile in forma gratuita usa il modello Sonnet. Come in Claude 2.1 sono applicate limitazioni al numero di richieste giornaliere. Disponibile il chatbot Claude Pro che utilizza Opus e accesso prioritario in caso di traffico elevato sul modello gratuito. Nella versione Claude Pro puoi inviare almeno 100 richieste da circa 15-20 parole ad Opus ogni 8 ore (contro i 25 della versione gratuita). “Almeno” perché in base al carico potresti essere in grado di superare il limite di 100. Se invii richieste con finestre di contesto molto ampie il limite potrebbe essere raggiunto molto presto anche con la versione Claude Pro. Se vuoi pagare on demand, dovresti utilizzare la API.
La versione Claude Pro per il momento non è disponibile nell’Unione Europea (per le restrittive regolamentazioni sulla privacy), ma puoi accedervi utilizzando una VPN. Il costo per il servizio Claude Pro è di $20 al mese. La lista delle nazioni supportate è disponibile a questo link.
Accesso tramite applicazioni
Se non sei uno sviluppatore e non hai idea di come usare le API, ci sono applicazioni come GPT4ALL che ti permettono di usarle semplicemente all’interno di una chatBot con una interfaccia Windows; in questo caso ti basta conoscere la chiave per usare l’API.
Della collaborazione con Amazon e Google ho già parlato sopra. Grazie a questa collaborazione, Sonnet (modello intermedio) è disponibile oggi anche tramite Amazon Bedrock e su Vertex AI Model Garden di Google Cloud, con Opus e Haiku in arrivo su entrambi.
Sonnet (modello intermedio) è disponibile da oggi anche su poe, la famosa app store di Quora per modelli IA. Poe con un abbonamento mensile di €19.17 (pagamento annuale) permette di utilizzare diversi modelli IA, tra cui Claude, Mistral, GPT 4 e molti altri.
Conclusione
La corsa incessante verso l’innovazione nel campo dell’intelligenza artificiale ha trovato un nuovo campione in Claude 3, un modello che ha superato i limiti precedentemente stabiliti da GPT-4.
Questo traguardo non solo sottolinea l’importanza della continua ricerca e sviluppo nel settore ma apre anche nuove prospettive su ciò che l’IA potrà realizzare in futuro. La sua versatilità, evidenziata dalla disponibilità in vari modelli per soddisfare diverse esigenze di velocità, intelligenza e costo, insieme alla capacità di elaborare un’ampia gamma di formati, compresi testo e immagini, lo rende uno strumento prezioso per sviluppatori, ricercatori e utenti finali.
Inoltre, il miglioramento nell’accuratezza delle risposte e la riduzione delle allucinazioni IA dimostrano un impegno verso la creazione di modelli più affidabili e meno soggetti a errori.
Mentre Anthropic celebra questo progresso, rimaniamo curiosi e attenti ai futuri sviluppi, consapevoli che il primato nell’IA sarà un traguardo sempre pronto a essere superato da nuove innovazioni. GPT-5 sarà dietro l’angolo ?