GPT-4o: il modello IA che gestisce testo, immagini e audio

OpenAI, l’azienda leader nel campo dell’intelligenza artificiale, durante l’evento OpenAI Spring Update a sole 24 ore dal Google I/O 2024 ha presentato GPT-4o, dove la “o” sta per “omni“ (un prefisso che deriva dal latino “omnis” e significa “tutto”), un modello multimodale che promette di cambiare l’interazione uomo-macchina. GPT-4o integra capacità di elaborazione di testo, immagini e audio in un’unica potente piattaforma. Ha prestazioni simili a GPT4, ed è gratuito, anche se con limitazioni di cui parleremo in seguito.

Caratteristiche innovative di GPT-4o

Ma la vera sorpresa sono i tempi di risposta e l’iterazione del modello vocale. Il nuovo modello offre tempi di risposta quasi istantanei. La latenza media è di soli 320 millisecondi, paragonabile ai tempi di reazione umani in una conversazione.

Questo permette di avere una conversazione vocale multimodale (con testo, video, audio) con GPT-4o, quasi come se stessimo dialogando con una persona. Durante una conversazione, GPT-4o può essere interrotto mentre ci risponde; può eseguire conversazioni con più persone. Dalla voce o dal video può capire il tuo stato emozionale e può cambiare il tono della sua voce su tua richiesta. Può interagire con quello che guardi tramite lo smartphone o con il lavoro che stai facendo sullo schermo del tuo computer. Sui canali social, GPT-4o già viene paragonato a Samantha in “Her”, all’assistente J.A.R.V.I.S. di Iron Man, o al computer di Star Trek.

La bassa latenza di GPT-4o è il risultato di progressi nell’architettura dei modelli, nell’ingegneria dei sistemi, nell’infrastruttura di calcolo e in tecniche di ottimizzazione mirate. Combinando questi fattori, GPT-4o raggiunge tempi di risposta fulminei pur mantenendo capacità avanzate in molteplici modalità e lingue.

Evento Spring Update

Mira Murati, CTO di OpenAI, ha condotto l’evento dal vivo della durata di circa 45 minuti. GPT-4o è stato il tema principale di tutto l’evento, con una presentazione del nuovo modello e in seguito una dimostrazione reale della chat vocale GPT-4o prima su smartphone e poi su laptop.

Entrambi i dispositivi usati nell’evento erano Apple, a rafforzare le voci di una forte collaborazione iniziata tra le due società. Come già annunciato qualche giorno fa da Sam Altam su X, non si è parlato ne di GPT-5 ne di un motore di ricerca potenziato da IA, alternativo a Google Search.

Tra l’altro durante l’evento è stata presentata anche una nuova app desktop ChatGPT solo per macOS. Può essere attivata tramite scorciatoie da tastiera per le query e con la possibilità di discutere gli screenshot direttamente nell’app.

GPT-4o vs GPT-4

Dal punto di vista delle prestazioni, GPT-4o eguaglia GPT-4 Turbo nelle attività di testo e codifica in inglese, con un significativo miglioramento nelle lingue non inglesi. Il modello eccelle particolarmente nella comprensione di immagini e audio rispetto ai modelli esistenti.

Inoltre, GPT-4o ha informazioni aggiornate a ottobre 2023, e può accedere a notizie attuali e navigare sul web in tempo reale (finalmente), garantendo risposte accurate e aggiornate alle richieste. Questa capacità è fondamentale per assicurare che le risposte del modello siano il più precise possibile.

GPT-4o supera anche ChatGPT nelle capacità di ragionamento. Ad esempio, se si tratta di trovare un appuntamento tra i calendari di due persone con diverse disponibilità, GPT-4o può trovare un orario che funzioni per entrambi e può farlo meglio di ChatGPT-4.

Primi benchmark

GPT-4o ha già passato una fase di test pubblico. Infatti, il dipendente di OpenAI William Fedus lunedì ha ammesso su X che il chatbot IA sotto falso nome “im-also-a-good-gpt2-chatbot” che girava un test pubblico nella popolare Chatbot Arena di LMSYS era, in effetti, il modello GPT-4o annunciato ieri. GPT-4o aveva raggiunto la prima posizione in classifica nella Chatbot Arena, ottenendo il punteggio più alto mai raggiunto.

GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Here’s how it’s been doing. pic.twitter.com/xEE2bYQbRk
— William Fedus (@LiamFedus) May 13, 2024

In realtà dai primi test su LiveCodeBench eseguiti da alcuni sviluppatori su X dopo l’evento, risulta che GPT-4o è stato privato di alcune importanti caratteristiche a favore di una maggiore velocità per token . Questo spiega perchè le API GPT-4 costano ancora il doppio delle API GPT-4o. Quindi per un assistenza coding professionale è ancora meglio affidarsi a GTP-4 o a Claude Opus. GPT-4o è ottimo per avere risposte veloci ed perfetto per una chat conversionale multimodale. Come segnalato su X, al modello GPT-4o manca la specializzazione “nuanced code” per esigenze di sviluppo software specifiche, migliorando qualità, efficienza e aderenza del codice generato al contesto d’uso. Per ridurre quasi a zero la latenza dei token doveva necessariamente essere tolto qualcosa da GPT-4.

It is indeed much worse than previous GPT4 from April on medium and hard code generation tasks on LiveCodeBench benchmark. Adding multi-modality in LLM destroys nuanced code specialization?https://t.co/3JkXl8t7rK pic.twitter.com/TczFfX5Y5t
— Denis A. (@den_run_ai) May 13, 2024

GPT-4o: applicazioni pratiche e casi d’uso

Le potenzialità di GPT-4o si estendono a molteplici settori e casi d’uso. Nell’ambito dell’accessibilità, il modello può descrivere scene complesse per gli ipovedenti, come dimostrato dalla collaborazione di OpenAI con l’app Be My Eyes.

Nel settore educativo, GPT-4o può fungere da tutor personale, adattandosi allo stile di apprendimento individuale e fornendo spiegazioni su misura. Aziende come Khan Academy stanno già integrando questa tecnologia nelle loro piattaforme di apprendimento online.

GPT-4 omni trova applicazione anche nella generazione di contenuti creativi, dalla composizione di canzoni alla scrittura di sceneggiature. Le sue capacità di iterare e perfezionare i compiti di scrittura tecnica e creativa lo rende uno strumento prezioso per scrittori, musicisti e altri professionisti creativi.

La finestra di contesto di GPT-4 omni non è molto grande, 128.000 token, ma sufficiente per svolgere diversi compiti anche complessi come l’elaborazione di circa 4 file pdf di medie dimensioni con testo e immagini. La dimensione della finestra di contesto limitata è comprensibile, se si vogliono avere tempi di risposta molto rapidi.

Prezzi e disponibilità

A differenza di GPT-4, che è disponibile solo per gli abbonati a pagamento di ChatGPT Plus, GPT-4 omni sarà gratuito per tutti. Gli abbonati a ChatGPT Plus avranno comunque alcuni vantaggi, come limiti di utilizzo più elevati e accesso anticipato alle nuove funzionalità.

Prezzi e limitazioni:

GPT-4o sarà gratuito per tutti gli iscritti al servizio ChatGPT, con alcune limitazioni in base al traffico e alla finestra di contesto delle domande poste. Quando non disponibile a causa dei limiti raggiunti, si verrà automaticamente portati al modello GPT-3.5 per un non definito periodo di tempo.
Gli abbonati a ChatGPT Plus hanno limiti più alti. Alla data di oggi, possono inviare fino a 80 messaggi ogni 3 ore su GPT-4o e fino a 40 messaggi ogni 3 ore su GPT-4.
Tramite API, GPT-4o costerà $0,03 per 1000 token di prompt e $0,06 per 1000 token di completamento. È il 50% più economico di GPT-4 Turbo.

Quindi anche se GPT-4 omni base è gratuito, ci sono ancora validi motivi per pagare un abbonamento a ChatGPT Plus o utilizzare le API a pagamento, soprattutto per utilizzi professionali.

Questo nuovo modello è già disponibile in molte applicazioni come Perplexity, Poe, Microsoft Azure e tante altre che già supportavano GPT-4.

La modalità testo standard di 4o è già disponibile solo per gli utenti Plus e lo sarà presto per tutti. La nuova modalità vocale della demo sarà invece disponibile in versione alpha nelle prossime settimane, inizialmente accessibile agli utenti Plus, con l’intenzione di espandere la disponibilità agli utenti Free.

Conclusioni e considerazioni

Con la sua capacità di elaborare testo, immagini e audio in tempo reale, questo nuovo modello apre la strada a innumerevoli applicazioni in settori quali l’accessibilità, l’istruzione e la creatività.

Nonostante i numerosi vantaggi offerti da GPT-4o la nuova tecnologia di sintesi vocale, può favorire anche il diffondersi di potenziali abusi. OpenAI affronta questi rischi grazie al suo team dedicato, il Red Team. Ci sono anche aspetti relativi alla privacy; se si accetta si usare GPT-4o si è consapevoli che il chatbot vocale di OpenAI lavora da remoto, quindi tutte le conversazioni, testi e video potrebbero essere monitorati.

Intanto Google, circa 30 minuti prima dell’evento OpenAI Update Spring e a 24 ore dal suo evento Google I/O ha lasciato un video su X dove mostra qualcosa di molto simile alla chat vocale GPT-4o ! Tra qualche ora ne sapremo di più. La sfida per l’IA si fa sempre più intensa

One more day until #GoogleIO! We’re feeling 🤩. See you tomorrow for the latest news about AI, Search and more. pic.twitter.com/QiS1G8GBf9
— Google (@Google) May 13, 2024

Ultimi Articoli

OpenAI presenta GPT-4o: il modello IA che gestisce testo, immagini e audio

Caratteristiche innovative di GPT-4o

Evento Spring Update

GPT-4o vs GPT-4

Primi benchmark