Uno degli annunci più importanti da parte di OpenAI dalla sua prima uscita è che ChatGPT può ora ascoltare e interagire vocalmente con l’utente, rispondendo con una voce sintetizzata realistica. Le nuove capacità vocali sono state implementate sia nell’app mobile iOS che Android e permettono di avere una vera e propria conversazione parlata con l’assistente virtuale. Per la prima volta possiamo parlare di IA conversazionale nella vita quotidiana.
È possibile attivare la funzionalità vocale dalle impostazioni dell’app e scegliere tra 5 voci sintetiche diverse generate da un modello di text-to-speech sviluppato da OpenAI. Il modello è in grado di produrre un audio molto simile alla voce umana. Le voci generate al computer sembrano migliori delle campionature a cui siamo abituati (Siri di Apple, Alexa di Amazon e Assistente Google) anche se hanno ancora un’intonazione leggermente innaturale, ma nel complesso la qualità conversazionale di chatGPT rappresenta un grande passo avanti rispetto agli assistenti virtuali che abbiamo usato fino ad oggi.
Per quanto riguarda il riconoscimento vocale, ChatGPT utilizza Whisper, sistema open source sempre di OpenAI addestrato su enormi quantità di dati per trascrivere il parlato in testo. In questo modo, l’assistente virtuale è in grado di comprendere le domande poste oralmente dall’utente e rispondere a voce.
Si apre così la possibilità di interagire in modo più naturale con ChatGPT, ponendo domande ad alta voce mentre si è occupati in altre attività o chiedendo consigli durante una passeggiata. La voce semplifica l’accesso all’IA conversazionale nella vita quotidiana.
ChatGPT può ora vedere e analizzare immagini
Oltre alle capacità IA conversazionali, ChatGPT ha acquisito anche la possibilità di elaborare input visivi. Gli utenti possono inviare una o più immagini all’assistente virtuale tramite l’app mobile e ChatGPT sarà in grado di descriverne il contenuto, rispondere a domande e fornire spiegazioni dettagliate.
Ad esempio, si può scattare una foto di un monumento durante un viaggio e chiedere informazioni storiche e curiosità su quel luogo specifico. Oppure mostrare il contenuto del frigorifero per farsi suggerire una ricetta con gli ingredienti disponibili. È possibile anche evidenziare aree di interesse all’interno dell’immagine e chiedere domande specifiche.
L’elaborazione delle immagini è resa possibile da modelli multimodali di intelligenza artificiale che applicano capacità di ragionamento e comprensione del linguaggio a una vasta gamma di immagini, come foto, screenshot, documenti e altro. Si tratta di una svolta significativa per l’interazione intuitiva con l’IA.
La IA conversazionale rende ChatGPT ancora più versatile
Nel complesso, l’aggiunta di capacità vocali e visive rende l’interazione con ChatGPT molto più versatile, intuitiva e integrata nelle attività quotidiane rispetto alla semplice chat testuale. L’utente può passare senza soluzione di continuità dal parlare con l’assistente, al mostrargli elementi visivi del proprio ambiente reale, il tutto con estrema naturalezza.
Si possono creare interazioni multimodali coinvolgendo contemporaneamente voce, immagini e testo. Ad esempio, durante una videochiamata di lavoro l’utente può mostrare un grafico a ChatGPT, evidenziarne una parte chiedendo oralmente chiarimenti, e ottenere una spiegazione dettagliata a voce dall’assistente virtuale.
Le funzionalità saranno dapprima disponibili per gli utenti Plus e Enterprise di ChatGPT e successivamente estese anche al piano gratuito. OpenAI ha dichiarato che introdurrà le novità gradualmente per poter raccogliere feedback e migliorare nel tempo l’esperienza utente.
Le funzionalità di elaborazione delle immagini saranno disponibili su tutte le piattaforme, sia App che web. Le funzionalità di interazione vocale saranno inserite solo nelle App Android e iOS.
Le sfide etiche poste dalla IA conversazionale
Se da un lato le nuove capacità potenziano enormemente l’esperienza con ChatGPT, dall’altro pongono anche nuove sfide etiche e di sicurezza che OpenAI sta cercando di affrontare.
La tecnologia vocale potrebbe essere utilizzata per creare deepfake vocali e impersonare individui a scopo fraudolento. Per questo OpenAI ha introdotto forti limitazioni, consentendo l’uso della voce sintetica solo nel contesto della chat con l’assistente virtuale.
OpenAI ha inoltre affermato che non conserverà le clip audio e che le clip audio stesse non saranno utilizzate per migliorare i modelli. Ma l’azienda ha anche sottolineato che le trascrizioni dei clip audio sono considerate input e potranno essere utilizzate per migliorare i modelli linguistici.
Anche l’elaborazione delle immagini presenta rischi come l’interpretazione erronea di foto sensibili e violazioni della privacy. OpenAI ha applicato restrizioni tecniche alla capacità di ChatGPT di analizzare direttamente le persone rappresentate nelle immagini, per evitare dichiarazioni inesatte o problematiche.
Inoltre viene ricordato all’utente che il modello ha limiti nell’analisi di immagini complesse e ambiti specialistici, quindi è bene verificare accuratamente le sue affermazioni. ChatGPT stesso mette in guardia dall’utilizzo per scopi ad alto rischio senza adeguata convalida umana.
Si tratta di una fase delicata in cui gli ingegneri di OpenAI devono trovare il giusto equilibrio tra incremento delle capacità dell’IA e gestione attenta dei potenziali impatti negativi. Il feedback degli utenti reali sarà prezioso per affinare le policy di sicurezza.
Conclusioni
L’introduzione di modalità di IA conversazionale e visiva segna una svolta importante nell’evoluzione di ChatGPT come assistente virtuale integrato nella vita quotidiana delle persone.
La possibilità di parlare e mostrare elementi visivi all’IA introduce nuove dimensioni di intuitività, personalizzazione ed immediatezza nell’esperienza dell’utente. Le potenzialità applicative spaziano dall’educazione, all’assistenza personale, al lavoro, allo svago.
Al contempo, le nuove funzionalità di IA conversazionale portano nuove sfide etiche che OpenAI sta cercando di gestire in modo proattivo e trasparente. Sarà fondamentale trovare il giusto equilibrio per minimizzare i rischi mantenendo una user experience positiva e costruttiva. Il futuro ci dirà se questo delicato bilanciamento è stato raggiunto con successo.