OpenAI, l’azienda di intelligenza artificiale guidata da Sam Altman, ha annunciato il lancio della versione Alpha ufficiale della modalità vocale avanzata (Advanced Voice Mode, AVM) in ChatGPT (GPT-4o). Il lancio è stato molto “silenzioso“, ancora nessun annuncio sul loro blog di news; solo alcuni post sulla piattaforma 𝕏 e l’aggiornamento delle FAQs. La modalità vocale era stata annunciata il 14 Maggio scorso.
La chat vocale permette di avere una conversazione vocale naturale con il modello GPT-4o; quasi come se stessimo dialogando con una persona. Durante una conversazione, ChatGPT può essere interrotto mentre ci risponde; può anche eseguire conversazioni con più persone. Dalla voce o dal video può capire il tuo stato emozionale e può cambiare il tono della sua voce.
Mentre la versione mostrata il 14 Maggio era multimodale, ovvero in grado di interagire con audio, voce e immagine, questo primo rilascio è in grado di interagire solo con audio e voce.
Nonostante l’entusiasmo per il lancio della modalità vocale avanzata, OpenAI si trova ad affrontare diverse sfide e limitazioni. La più evidente è l’esclusione di diverse regioni europee dal rollout iniziale; tra cui l’Unione Europea, il Regno Unito, la Svizzera, l’Islanda, la Norvegia e il Liechtenstein.
Al momento, la AVM è disponibile solo per gli abbonati a ChatGPT Plus e Teams; i clienti Enterprise e Edu potranno utilizzarla a partire dalla prossima settimana.
Problemi di regolamentazione e limitazioni
Il mancato rilascio della modalità vocale avanzata di ChatGPT in diversi paesi europei sembra essere dovuto a problemi di regolamentazione. OpenAI sta affrontando questioni legali legate alla privacy e alla protezione dei dati in Europa, che sono state identificate come potenziali ostacoli all’introduzione di nuove funzionalità in questi mercati.
Alcune delle funzionalità dimostrate nella demo di maggio da OpenAI sono ancora assenti nella chat vocale AVM. Ad esempio, le funzioni di condivisione video e schermo di ChatGPT, non sono state rese disponibili al pubblico. Queste caratteristiche multimodali erano state progettate per consentire agli utenti di interagire sia con la modalità visiva che con quella uditiva, ad esempio per ricevere un feedback su immagini o video in tempo reale.
La modalità vocale avanzata di ChatGPT, con la sua capacità di comprendere il contesto emotivo e di interagire in modo naturale, stabilisce un nuovo standard nel settore. Ciò potrebbe portare a un’accelerazione nello sviluppo di assistenti vocali più sofisticati e versatili, con potenziali applicazioni in vari settori, dalla customer service all’educazione, fino all’assistenza sanitaria.
Altri giganti tech non stanno a guardare. Google, ad esempio, ha recentemente lanciato la sua funzionalità vocale Gemini Live per dispositivi Android, mentre Meta sta pianificando di introdurre voci di celebrità su piattaforme come Facebook, Instagram e WhatsApp.
Caratteristiche della chat vocale versione alpha
Una delle caratteristiche più notevoli è la capacità di interrompere ChatGPT mentre sta parlando, proprio come in una conversazione umana. Questo permette un dialogo più dinamico e reattivo, evitando lunghe risposte monodirezionali. Inoltre, il sistema è ora in grado di riconoscere e interpretare le emozioni dal tono di voce dell’interlocutore, adattando le proprie risposte di conseguenza.
Questa sensibilità emotiva aggiunge un nuovo livello di profondità all’interazione, avvicinando l’esperienza a quella di una conversazione reale. La modalità vocale avanzata supporta oltre 50 lingue.
L’integrazione di funzionalità come le Istruzioni Personalizzate e la Memoria permette una maggiore personalizzazione dell’esperienza, consentendo a ChatGPT di ricordare preferenze e conversazioni precedenti.
Ogni messaggio vocale standard viene conteggiato ai fini dei limiti dei messaggi. Questo significa che gli abbonati Plus possono terminare molto velocemente il loro limite messaggi. OpenAI ha incluso 9 voci per una maggiore varietà e personalizzazione. Queste voci sono state create utilizzando attori professionisti provenienti da tutto il mondo; selezionati per le loro qualità vocali ritenute piacevoli per lunghe conversazioni.
- Arbor: Semplice e versatile
- Breeze: animato e serio
- Cove: Composto e diretto
- Ember: fiducioso e ottimista
- Juniper: aperto e ottimista
- Maple: allegro e schietto
- Sol: esperto e rilassato
- Spruce: calmo e affermativo
- Vale: Brillante e curiosa
Chat vocale di OpenAI : conclusioni
La nuova chat vocale ti consente di avere una conversazione vocale con ChatGPT; consente un’interazione colloquiale e naturale, avvicinandosi molto ad una conversazione umana. Tuttavia, il mancato rilascio in diversi paesi europei evidenzia le sfide normative e di sicurezza che l’azienda deve affrontare per espandere la disponibilità delle sue tecnologie. Anche il mancato rilascio in versione gratuita, ne potrebbe limitare la diffusione.
Inoltre, l’assenza di alcune funzionalità multimodali precedentemente annunciate suggerisce che OpenAI potrebbe aver incontrato ostacoli tecnici o legali nella loro implementazione. Nonostante questi limiti, il continuo progresso di ChatGPT e di altre tecnologie di intelligenza artificiale conversazionale promette di rivoluzionare il modo in cui interagiamo con i nostri dispositivi, aprendo nuove possibilità in diversi settori e applicazioni.