OpenAI ha messo in roll-out due funzionalità attese da tempo su ChatGPT mobile; il video in tempo reale e la condivisione dello schermo (advanced voice mode). Annunciati ieri durante i “12 Days of OpenAI” (questo è il sesto annuncio), questi strumenti sono ora disponibili tramite le applicazioni mobile iOS e Android solo per gli abbonati Plus, Pro e Team. Le funzionalità erano state presentate per la prima volta in un video di presentazione lo scorso mese di maggio durante il lancio di GPT-4o.
L’aggiornamento offre un’interazione più naturale e visiva con l’intelligenza artificiale; apre la strada a usi innovativi nella vita quotidiana. Immagina di poter conversare con il tuo dispositivo come faresti con un amico in videochiamata; oppure mostrando oggetti intorno a te per ricevere immediati suggerimenti e informazioni. L’introduzione sarà progressiva e non ancora accessibile ovunque, con limitazioni in Europa e altri Paesi.
Questo aggiornamento non solo promette di migliorare l’efficienza delle comunicazioni; getta le basi per un futuro in cui la tecnologia diventa un’estensione più fluida della nostra percezione e comprensione del mondo. Con la privacy e la sicurezza sempre in primo piano, OpenAI continua a esplorare come queste innovazioni possano trovare un equilibrio tra utilità e protezione dei dati personali.
Funzionalità di video e condivisione schermo
Le nuove funzionalità di ChatGPT sono disponibili nell’Advanced Voice Mode dell’app mobile; offrono la possibilità di avviare conversazioni video o condividere lo schermo del proprio dispositivo in pochi semplici passaggi. Attraverso un’icona video posta in basso a sinistra nella barra della chat, si ha la possibilità di iniziare una videochiamata con il chatbot; mentre un menu a tre punti permette di attivare la condivisione dello schermo.
Queste opzioni rappresentano un modo innovativo di interazione; permettono di mostrare al chatbot quello che accade nel mondo circostante. Quasi come avere un occhio extra che osserva e comprende ciò che viene presentato.
Così facendo, ChatGPT può offrire indicazioni o aiuti su oggetti individuati mediante la videocamera; come nella dimostrazione di OpenAI in cui viene descritta passo dopo passo la preparazione di un caffè (foto sotto).
Questa capacità di vedere e rispondere in tempo reale apre nuove vie di utilizzo; dal supporto tecnico alla guida interattiva in situazioni quotidiane.
Impatto e confronto con i competitor
L’introduzione delle funzionalità di video e condivisione schermo rende ChatGPT competitivo rispetto ad altre soluzioni di intelligenza artificiale che stanno emergendo sul mercato. In un panorama in cui aziende come Google stanno sviluppando tecnologie simili, OpenAI si pone in una posizione favorevole; è già pronta con un prodotto maturo e accessibile. Tuttavia, come già indicato, la fruizione è limitata a utenti Plus e Pro di ChatGPT.
Il modello Gemini 2.0 di Google rilasciato pochi giorni fa, attraverso la sua API Multimodal Live, è in grado di vedere e ascoltare; quindi è simile alla modalità avanzata di ChatGPT di OpenAI che permette la visione e l’ascolto tramite dispositivi mobili.
La Multimodal Live API di Gemini 2.0 consente interazioni bidirezionali in tempo reale; utilizza input di testo, audio e video, e fornisce output audio e testo. Questo significa che Gemini 2.0 può analizzare contenuti visivi e audio in tempo reale; offre risultati di streaming per ciò che vede e sente. Inoltre, Gemini 2.0 introduce nuove capacità multimodali come la generazione nativa di immagini e funzionalità avanzate di text-to-speech.
Al momento però le capacità di Gemini 2.0 di “vedere e ascoltare” tramite la Multimodal Live API sono disponibili solo tramite API e non direttamente su dispositivi mobili. Tuttavia, Google ha dichiarato che queste capacità potrebbero essere integrate in futuro con un’espansione pianificata delle funzionalità di Gemini 2.0 nei propri prodotti.
La voce di Babbo Natale su ChatGPT Mobile
Il team di OpenAI, come avrai notato dai video di “12 Days of OpenAI” di questi giorni, è in pieno clima natalizio. Tra le sorprese del periodo natalizio di OpenAI, ieri è stata presentata anche la voce di “Babbo Natale” (Santa Mode).
Questa caratteristica, aggiunge un tocco speciale alla già completa scelta di voci del chatbot. Il preset “Santa”, contraddistinto da un’intonazione calda e allegra che richiama l’immaginario del Babbo Natale che tutti conosciamo, sarà disponibile fino a inizio gennaio. E’ accessibile tramite un’icona a forma di fiocco di neve nella barra dell’app; un’opzione curiosa e divertente pensata per il periodo festivo.
Santa può rispondere a domande, raccontare storie di Natale o semplicemente fare battute per rallegrare la giornata. A differenza delle conversazioni standard con ChatGPT, le interazioni con Babbo Natale non saranno salvate nella cronologia della chat.
Inoltre, il “Santa Mode” sarà disponibile per gli utenti con accesso alla modalità vocale avanzata sull’app mobile, sulla versione web di ChatGPT e sulle app Windows e MacOS.
ChatGPT Advanced Voice Mode: conclusioni
La possibilità di integrare video e condivisione schermo nelle comunicazioni quotidiane ampliano enormemente il potenziale di utilizzo; è un segnale positivo per chi fa affidamento su queste tecnologie.
Guardando al futuro, sarà interessante osservare come OpenAI continuerà a sviluppare e perfezionare queste capacità. Con un mercato delle IA in continua evoluzione, ChatGPT è ben posizionato per continuare a sorprendere e servire il grande pubblico con soluzioni sempre più sofisticate e accessibili.
Ormai cominciamo ad essere abituati a queste novità, ma come avresti reagito se una chat multimediale con capacità di visione e ascolto in tempo reale, fosse apparsa all’improvviso prima del 30 novembre 2022 (data della prima uscita di ChatGPT)? Lascia un tuo commento.