Google ha appena lanciato due nuove versioni stabili dei suoi modelli API Gemini 1.5 per gli sviluppatori; i modelli Gemini 1.5 Pro (gemini-1.5-pro-002) e Gemini 1.5 Flash (gemini-1.5-flash-002). Questi nuovi modelli forniscono prestazioni migliori e costi inferiori per la creazione di app. Le versioni aggiornate sono notevolmente migliorate rispetto alle precedenti versioni 001; mostrano progressi significativi in diverse aree, ad esempio nella generazione di codice, nei calcoli matematici, nella risoluzione di problemi e nell’analisi video.
Ciò significa che gli sviluppatori potranno creare app che funzionano in modo più efficiente ed efficace. Inoltre, Google ha apportato un cambiamento significativo tagliando il prezzo del suo modello Gemini 1.5 Pro di oltre il 50%. Questo modello può ora gestire tre volte più richieste e ha latenze inferiori rispetto alle versioni 001 precedenti.
Miglioramenti chiave dei modelli Gemini 1.5
Google ha riportato miglioramenti in entrambi i modelli Gemini 1.5. Innanzitutto, sono diventati molto più efficenti nel fornire informazioni accurate; hanno meno probabilità di creare risposte false o fuorvianti, note come allucinazioni IA. In più, sono modelli più abili nel seguire le istruzioni e nel comprendere più lingue, almeno fino a 102. Eccellono anche nella generazione di codice SQL e possono comprendere in modo più efficace audio e documenti di vario genere.
Google ha offerto anche suggerimenti per aiutare gli sviluppatori di prodotti basati su chat a migliorare le capacità di conversazione delle loro API; con queste opzioni, gli sviluppatori possono creare esperienze di chat più coinvolgenti e interattive. A partire dal 1° ottobre, Google ridurrà notevolmente i prezzi per l’API Gemini 1.5 Pro.
Per input fino a 128K token, il prezzo è diminuito da $3.50 a $1.25 per milione di token; una discesa del 64,3%. Per output nella stessa fascia, il costo è sceso da $10.50 a $2.50, con una riduzione del 76,2%. Nella fascia oltre 128K token, l’input ha subito una riduzione da $7.00 a $5.00 (sconto del 28,6%); mentre l’output è passato da $21.00 a $10.00, con un taglio del 52,4%. Questi nuovi prezzi, che entreranno in vigore dal 1° ottobre 2024, mostrano una strategia di pricing aggressiva; probabilmente mirata ad aumentare l’accessibilità e l’adozione del servizio. Gli sconti maggiori sono particolarmente significativi per i sviluppatori con volumi di utilizzo inferiori.
Benchmark Gemini 1.5 002
I nuovi modelli Gemini-1.5-Pro-002 e Gemini-1.5-Flash-002 rappresentano un significativo passo avanti rispetto alle versioni precedenti. Questi modelli aggiornati offrono miglioramenti in diverse aree chiave.
Uno dei progressi più significativi è l’aumento del 7% nelle prestazioni sul benchmark MMLU-Pro; un test complesso che valuta le capacità di comprensione e ragionamento dei modelli IA. Ancora più importante è il miglioramento del 20% nei benchmark MATH e HiddenMath; mettono alla prova le abilità matematiche dei modelli.
Questi progressi indicano una maggiore precisione e affidabilità nell’affrontare problemi complessi e calcoli avanzati. Inoltre, i nuovi modelli mostrano miglioramenti dal 2% al 7% in compiti relativi alla visione artificiale e alla generazione di codice; ampliano così il loro potenziale di applicazione in campi come l’elaborazione delle immagini e lo sviluppo software.
Un aspetto interessante dei nuovi modelli è la loro capacità di fornire risposte più concise. Google ha ridotto la lunghezza predefinita delle risposte del 5-20%; una risposta al feedback degli sviluppatori che richiedevano output più sintetici e gestibili. Questa modifica non solo rende i modelli più facili da utilizzare, ma contribuisce anche a ridurre i costi operativi; un fattore cruciale per l’adozione su larga scala.
La versatilità dei nuovi modelli Gemini 1.5 è particolarmente evidente nella loro capacità di gestire compiti complessi e multidimensionali. Possono sintetizzare informazioni da documenti PDF di migliaia di pagine, rispondere a domande su repository di codice contenenti oltre 10.000 righe e creare contenuti utili da video di lunga durata. Questa flessibilità apre nuove possibilità in campi come l’analisi dei documenti, lo sviluppo software e l’elaborazione di contenuti multimediali.
Altre funzionalità
Google sta anche semplificando il lavoro degli sviluppatori con Gemini aumentando i limiti di frequenza per i livelli a pagamento di entrambi i modelli. Il limite del modello 1.5 Flash aumenterà a 2.000 richieste al minuto (RPM), mentre quello di 1.5 Pro salirà a 1.000 RPM, rispetto ai precedenti limiti di 1.000 RPM per Flash e 360 RPM per Pro.
In questo modo, gli sviluppatori troveranno più facile effettuare più richieste in un lasso di tempo più breve, rendendo più semplice la creazione e il miglioramento delle loro applicazioni.
Google ha anche introdotto Gemini 1.5 Flash-8B, una versione sperimentale più piccola del modello 1.5 Flash; sebbene i suoi punteggi di riferimento siano inferiori a quelli delle versioni complete, questo modello offre ancora miglioramenti evidenti delle prestazioni. Gli sviluppatori possono ora accedere a tutte le versioni dei modelli Gemini 1.5 su Google AI Studio e tramite l’API Gemini.
Aggiornamento Gemini 1.5: conclusioni
Con prestazioni migliorate, costi ridotti e funzionalità avanzate, questi modelli aggiornati di Gemini 1.5 offrono agli sviluppatori strumenti potenti per creare app più efficienti ed efficaci; inoltre, l’aumento dei limiti di frequenza e la riduzione della latenza semplificano il processo di sviluppo, consentendo di creare e migliorare le applicazioni più rapidamente.
La concorrenza tra Google, OpenAI e Anthropic nel mercato dell’IA sta spingendo le aziende a innovare e introdurre nuove funzionalità e modelli LLM. Il futuro dell’AI è davvero in frenetica evoluzione e i nuovi modelli Gemini 1.5 di Google sono ancora solo l’inizio di ciò che verrà.